Towards information system development for data extraction from web

dc.contributor.authorGontar, Yulia Mukolaivnaen
dc.contributor.authorTkach, Kateryna Victorivnaen
dc.contributor.authorYena, Bohdan Oleksandrovychen
dc.contributor.authorVasylenko, Artem Viktorovichen
dc.date.accessioned2018-08-30T11:51:47Z
dc.date.available2018-08-30T11:51:47Z
dc.date.issued2018
dc.description.abstractToday, the Internet contains a huge number of sources of information, which is constantly used in our daily lives. It often happens that similar in meaning information is presented in different forms on different resources (for example, electronic libraries, online stores, news sites and etc.). In this paper, we analyze the extraction of information from certain type of web sources that is required by the user. The analysis of the data extraction problem was carried out. When considering the main approaches to data extraction, the strengths and weaknesses of each were identified. The main aspects of the extraction of web knowledge were formulated. Approaches and information technologies for solving problems of syntactic analysis based on existing information systems are analyzed. Based on the analysis, the task of developing models and software components for extracting data from certain types of web resources were solving. A conceptual model of extracting data was developed taking into account web space as an external data source. A requirements specification for the software component was created, which will allow to continue working on the project and to clearly understand the requirements and constraints for implementation. During the process of modeling software, the following diagrams have been developed, such as activities, sequences and deployments, which will then be used to create the finished software application. For further development of the software, a programming platform and types of testing (load and modular) were defined. The obtained results allow to state that the proposed design solution, which will be implemented as a prototype of the software system, can perform the task of extracting data from different sources on the basis of a single semantic template.en
dc.description.abstractСьогодні Інтернет містить величезну кількість джерел інформації, яка постійно використовується в нашому щоденному житті. Часто буває, що схожа за змістом інформація представлена в різній формі на різних ресурсах (наприклад, електронні бібліотеки, інтернет-магазини, новинні сайти). У даній роботі аналізується вилучення інформації з веб-джерел певного типу, яке потрібно користувачеві. Проведено аналіз проблеми вилучення даних. При розгляді основних підходів до екстракції даних були виділені сильні і слабкі сторони кожного. Сформульовано основні аспекти вилучення веб-знань. Проаналізовано підходи та інформаційні технології вирішення проблем синтаксичного аналізу на основі існуючих інформаційних систем. На основі проведеного аналізу була сформована задача розробки моделей і програмних компонентів для отримання даних з веб-ресурсів певного типу. Розроблено концептуальну модель вилучення даних з урахуванням веб-простору як зовнішнього джерела даних. Була створена специфікація вимог для програмного компонента, що дозволить продовжити роботу над проектом, щоб чітко розуміти вимоги і обмеження для реалізації. При моделюванні програмного забезпечення були розроблені наступні діаграми, такі як діаграми класів, активності, послідовності і розгортання, які потім будуть використовуватися для створення готового додатка. Для подальшої розробки програмного забезпечення була визначена платформа програмування і види тестування (навантажувальний і модульне). Отримані результати дозволяють стверджувати, що пропоноване проектне рішення, яке буде реалізовано у вигляді прототипу програмної системи, може виконувати завдання екстракції даних з різних джерел на основі одного семантичного шаблону.uk
dc.identifier.citationTowards information system development for data extraction from web / Y. M. Gontar [et al.] // Вісник Національного технічного університету "ХПІ". Сер. : Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Ser. : System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2018. – № 22 (1298). – С. 53-59.en
dc.identifier.orcidhttps://orcid.org/0000-0002-3748-5086
dc.identifier.orcidhttps://orcid.org/0000-0003-3121-4856
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/37379
dc.language.isoen
dc.publisherНТУ "ХПІ"uk
dc.subjectinformationen
dc.subjectweb searchen
dc.subjectdata extractionen
dc.subjectdata sourceen
dc.subjectdata miningen
dc.subjectlanguage standardsen
dc.subjectinformational technologyen
dc.subjectінформаціяuk
dc.subjectекстракція данихuk
dc.subjectджерело данихuk
dc.subjectінтелектуальний аналіз данихuk
dc.subjectязикові стандартиuk
dc.subjectінформаційні технологіїuk
dc.titleTowards information system development for data extraction from weben
dc.title.alternativeПідхід до розробки інформаційної системи для екстракції даних з вебuk
dc.typeArticleen

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
vestnik_KhPI_2018_22_Gontar_Towards_information.pdf
Розмір:
837.61 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис:

Зібрання