Towards information system development for data extraction from web

Gontar, Yulia Mukolaivna; Tkach, Kateryna Victorivna; Yena, Bohdan Oleksandrovych; Vasylenko, Artem Viktorovich

Towards information system development for data extraction from web

dc.contributor.author	Gontar, Yulia Mukolaivna	en
dc.contributor.author	Tkach, Kateryna Victorivna	en
dc.contributor.author	Yena, Bohdan Oleksandrovych	en
dc.contributor.author	Vasylenko, Artem Viktorovich	en
dc.date.accessioned	2018-08-30T11:51:47Z
dc.date.available	2018-08-30T11:51:47Z
dc.date.issued	2018
dc.description.abstract	Today, the Internet contains a huge number of sources of information, which is constantly used in our daily lives. It often happens that similar in meaning information is presented in different forms on different resources (for example, electronic libraries, online stores, news sites and etc.). In this paper, we analyze the extraction of information from certain type of web sources that is required by the user. The analysis of the data extraction problem was carried out. When considering the main approaches to data extraction, the strengths and weaknesses of each were identified. The main aspects of the extraction of web knowledge were formulated. Approaches and information technologies for solving problems of syntactic analysis based on existing information systems are analyzed. Based on the analysis, the task of developing models and software components for extracting data from certain types of web resources were solving. A conceptual model of extracting data was developed taking into account web space as an external data source. A requirements specification for the software component was created, which will allow to continue working on the project and to clearly understand the requirements and constraints for implementation. During the process of modeling software, the following diagrams have been developed, such as activities, sequences and deployments, which will then be used to create the finished software application. For further development of the software, a programming platform and types of testing (load and modular) were defined. The obtained results allow to state that the proposed design solution, which will be implemented as a prototype of the software system, can perform the task of extracting data from different sources on the basis of a single semantic template.	en
dc.description.abstract	Сьогодні Інтернет містить величезну кількість джерел інформації, яка постійно використовується в нашому щоденному житті. Часто буває, що схожа за змістом інформація представлена в різній формі на різних ресурсах (наприклад, електронні бібліотеки, інтернет-магазини, новинні сайти). У даній роботі аналізується вилучення інформації з веб-джерел певного типу, яке потрібно користувачеві. Проведено аналіз проблеми вилучення даних. При розгляді основних підходів до екстракції даних були виділені сильні і слабкі сторони кожного. Сформульовано основні аспекти вилучення веб-знань. Проаналізовано підходи та інформаційні технології вирішення проблем синтаксичного аналізу на основі існуючих інформаційних систем. На основі проведеного аналізу була сформована задача розробки моделей і програмних компонентів для отримання даних з веб-ресурсів певного типу. Розроблено концептуальну модель вилучення даних з урахуванням веб-простору як зовнішнього джерела даних. Була створена специфікація вимог для програмного компонента, що дозволить продовжити роботу над проектом, щоб чітко розуміти вимоги і обмеження для реалізації. При моделюванні програмного забезпечення були розроблені наступні діаграми, такі як діаграми класів, активності, послідовності і розгортання, які потім будуть використовуватися для створення готового додатка. Для подальшої розробки програмного забезпечення була визначена платформа програмування і види тестування (навантажувальний і модульне). Отримані результати дозволяють стверджувати, що пропоноване проектне рішення, яке буде реалізовано у вигляді прототипу програмної системи, може виконувати завдання екстракції даних з різних джерел на основі одного семантичного шаблону.	uk
dc.identifier.citation	Towards information system development for data extraction from web / Y. M. Gontar [et al.] // Вісник Національного технічного університету "ХПІ". Сер. : Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Ser. : System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2018. – № 22 (1298). – С. 53-59.	en
dc.identifier.orcid	https://orcid.org/0000-0002-3748-5086
dc.identifier.orcid	https://orcid.org/0000-0003-3121-4856
dc.identifier.uri	https://repository.kpi.kharkov.ua/handle/KhPI-Press/37379
dc.language.iso	en
dc.publisher	НТУ "ХПІ"	uk
dc.subject	information	en
dc.subject	web search	en
dc.subject	data extraction	en
dc.subject	data source	en
dc.subject	data mining	en
dc.subject	language standards	en
dc.subject	informational technology	en
dc.subject	інформація	uk
dc.subject	екстракція даних	uk
dc.subject	джерело даних	uk
dc.subject	інтелектуальний аналіз даних	uk
dc.subject	язикові стандарти	uk
dc.subject	інформаційні технології	uk
dc.title	Towards information system development for data extraction from web	en
dc.title.alternative	Підхід до розробки інформаційної системи для екстракції даних з веб	uk
dc.type	Article	en

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: vestnik_KhPI_2018_22_Gontar_Towards_information.pdf
Розмір:: 837.61 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 1.71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

Вісник № 22