Багатоагентні моделі та методи збору та видобування бізнес-інформації у веб-просторі







доктор філософії



122 – Комп'ютерні науки


Спеціалізована вчена рада ДФ 64.050.070


Національний технічний університет "Харківський політехнічний інститут"


Чередніченко Ольга Юріївна


Національний технічний інститут "Харківський політехнічний інститут"


Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 122 – Комп’ютерні науки (12 – Інформаційні технології). – Національний технічний університет «Харківський політехнічний інститут» Міністерства освіти і науки України, Харків, 2021. Об’єктом дослідження є процеси пошуку, збору та видобування даних у розподіленому інформаційному просторі. Предметом дослідження є моделі, методи та інформаційна технологія збору та видобування інформації у веб просторі на основі багатоагентної обробки даних. У дисертаційній роботі вирішена науково-практична задача збору та видобування бізнес-інформації у розподіленому інформаційному середовищі для забезпечення актуальності та ефективності рішень, що приймаються. Для вирішення поставлених задач використано наступні методи: системний аналіз для розробки концептуальної моделі веб-моніторингу; методи теорії штучного інтелекту та алгебри скінченних предикатів першого порядку для створення формальної архітектури агентів; метод компараторної ідентифікації, методи інтелектуального аналізу даних, методи побудови онтологій та методи математичної статистики для обробки даних, які зібрано із веб-сторінок; методи теорії прийняття рішень; уніфікована мова моделювання UML та методологія агентно-орієнтованого програмування для реалізації прототипу агентної платформи, заснованої на використанні формальних методів для проектування багатопотокових систем. У вступі дисертаційної роботи обґрунтовано актуальність теми дослідження, зазначено зв’язок роботи з науковими темами, сформульовано мету і задачі дослідження, визначено об’єкт, предмет та методи дослідження, показано наукову новизну та практичне значення отриманих результатів, наведено інформацію про практичне використання, особистий внесок здобувача, апробацію результатів дослідження та їх висвітлення у публікаціях. У першому розділі дисертаційної роботи проведено аналіз систем пошуку та моніторингу інформації, підходів для їх вирішення та аналіз недоліків існуючого апарата тематичного пошуку. Виділено проблеми, які в даний момент ще не вирішені і є актуальними з точки зору аналізу та підвищення ефективності прийняття бізнес рішень. Визначено напрямок підвищення ефективності процесів підтримки прийняття рішень за рахунок збору актуальних даних у веб-просторі. Розглянуто існуючі методи та засоби комплексного підходу до реалізації процесу пошуку даних веб-простору на основі інтелектуальних технологій. Проаналізовані найбільш популярні та широко використовувані парадигми програмування. В даній роботі пропонується використовувати агентну архітектуру при проектуванні системи моніторингу. Це пов’язано з її перевагами по відношенню до інших підходів. Обрано напрями досліджень, поставлено основні задачі дисертаційної роботи. У другому розділі дисертаційної роботи сформовано теоретичні основи підвищення ефективності прийняття бізнес рішень шляхом розробки багатоагентних моделей та методів збору та видобування бізнес-інформації у веб-просторі. Обгрунтовано використання математичного апарату алгебри скінченних предикатів, розроблено моделі пошуку, екстракції та видобування инфомації на основі використання компаратоної моделі. Розгляуто концепцію збору та видобування бізнес-інформації на основі використання багатоагентних систем. Агентна платформа є базовим інструментом створення інтелектуальних багатоагентних систем, що дозволяє створювати, знищувати, інтерпретувати, запускати і переміщати агентів. Основними функціями агентних платформ є: організація взаємодії агентів; передача повідомлень всередині платформи та між різними платформами; підтримка онтологій; управління агентами, їх життєвими циклами; пошук агентів і даних про них всередині системи; забезпечення безпеки агентів. Методологічну основу створення агентної платформи визначають стандарти MASIF (Mobile Agent System Interoperability Facility) та FIPA (Foundation of Physical Intelligent Agents). В роботі запропоновано використання стандартів FIPA, які надають базові визначення понять комунікації агентів. В основі багатоагентного підходу лежить поняття програмного агента, який реалізований і функціонує як самостійна спеціалізована комп’ютерна програма або елемент штучного інтелекту. Використання програмних агентів дозволяє підтримувати та вдосконалювати процес прийняття бізнес рішень. На основі проведених досліджень, відображених у даному розділі, були отримані наступні нові наукові результати: сформовано комплексний підхід до реалізації процесу збору даних веб-простору на основі інтелектуальних технологій; удосконалено модель екстракції бізнес-інформації. У третьому розділі удосконалено методи пошуку та збору бізнес-інформації за рахунок використання методу компараторної ідентифікації для побудови моделі оцінки релевантності веб-сторінки та багатоагентної моделі направленого пошуку, що надає можливість пошуку інформаційних ресурсів за принципом корисності для прийняття рішень. В цілому розроблені методи видобування бізнес інформації засновується на використанні багатоагентного підходу та формальної архітектури агента на основі компараторної ментальної моделі для пошуку та збору даних у веб-просторі, що надає комплексний підхід до вирішення задач збору бізнес-інформації, дозволяючи обґрунтовано приймати бізнес рішення. Цей підхід дозволяє забезпечити повноту та актуальність комерційної інформації, яка отримана з веб-простору, що підвищує ефективність прийняття бізнес рішень. Дослідження даного розділу дозволили одержати наступні результати: отримала подальший розвиток модель інтерпретації неповної суперечливої інформації, яку отримано шляхом збору та видобування у веб-просторі. У четвертому розділі дисертаційної роботи представлено основні результати щодо розробки інформаційної технології збору та видобування бізнес-інформації на основі запропонованого методу та розроблених моделей екстракції, інтерпретації та оцінки даних, що містяться у веб-просторі, шляхом реалізації багатоагентної моделі обробки даних. На основі аналізу існуючих підходів до проектування агентно-орієнтованих програмних систем та специфікацій стандартів багатоагентних систем були виділені підходи для побудови архітектури агентної платформи та відповідні вимоги. Наведені вимоги обумовлюють вибір технологій реалізації інформаційної системи. В даній роботі розроблено прототип агентної платформи для реалізації багатопотокових систем у різних предметних областях. В роботі наведено результати експериментів, які засвідчують працездатність запропонованих моделей. Аналіз отриманих результатів дослідження показав, що сформований метод та розроблені моделі, на яких базується інформаційна технологія, на відміну від існуючих, надають можливість пошуку та збору інформації, яка є корисною для бізнесу з урахуванням семантики контенту веб-ресурсів, виключенням дублікатів та оцінки на повноту та достовірність даних. За дослідженнями даного розділу отримані наступні результати: створена специфікація вимог до програмного забезпечення; розроблено програмні компоненти серверної частини програмної системи, що дозволяє проводити екстракцію даних з віртуальних торгівельних площадок; проведено експерименти на придатність агентної платформи для вирішення задачі збору та видобування бізнес-інформації; проведено тестування розроблених програмних компонентів та доведено їх ефективність для реалізації багатоагентної обробки даних. Дисертаційна робота виконана у межах науково-дослідних робіт: «Створення моделей та методів збору та автоматизованої переробки бізнес-інформації у веб-просторі», № ДР 0119U002556; «Розробка методів моніторингу актуальних даних в системах організаційного управління» № ДР 0121U108870, в яких автор брав участь як виконавець окремих етапів. Наукова новизна отриманих результатів полягає у наступному: - Отримала подальший розвиток модель екстракції бізнес-інформації за рахунок введення предикатів еквівалентності змісту бізнес-інформації, яка дозволяє залучити слабкоструктуровану текстову інформацію для забезпечення повноти даних. - Отримала подальший розвиток модель інтерпретації неповних суперечливих неоднорідних даних та даних, що дублюються, яка на відміну від існуючих, комбінує статистичні методи та інтегральну оцінку якості отриманих даних, що дозволяє підвищити ефективність обробки даних та знизити залежність від суб’єктивізму експертних оцінок. - Удосконалено інформаційну технологію багатоагентного збору бізнес-інформації у розподіленому інформаційному просторі, яка дозволяє здійснювати видобування актуальних даних в режимі реального часу на основі використання апарату алгебри скінченних предикатів та комплексу еталонних моделей збору даних.
The thesis is submitted to obtain a scientific degree of Doctor of Philosophy, specialty 122 – Computer Science (12 – Information Technology). – National Technical University “Kharkiv Polytechnic Institute”, Kharkiv, 2021. The object of research is the processes of searching, collecting and extracting data in the distributed information space. The subject of the study is models, methods and information technology for collecting and extracting information in the web space based on multi-agent data processing. The scientific and practical task of collecting and extracting business information in a distributed information environment to ensure the relevance and effectiveness of the decisions made is solved in the dissertation work. The following methods were used to solve the problems: system analysis for the development of a conceptual model of web monitoring; methods of the theory of artificial intelligence and the algebra of finite predicates of the first order to create a formal architecture of agents; the method of comparative identification, methods of intelligent data analysis, methods of building ontologies and methods of mathematical statistics for processing data collected from web pages; methods of decision-making theory; the unified UML modeling language and agent-oriented programming methodology for the implementation of a prototype of an agent platform based on the use of formal methods for designing multi-threaded systems. In the introduction of the dissertation, the relevance of the research topic is substantiated, the connection of the work with scientific topics is indicated, the purpose and tasks of the research are formulated, the object, subject and methods of the research are defined, the scientific novelty and practical significance of the obtained results are shown, information is given about practical use, personal contribution of the acquirer, approbation of research results and their coverage in publications. In the first section of the dissertation, an analysis of information search and monitoring systems, approaches to their solution, and an analysis of the shortcomings of the existing thematic search apparatus were carried out. Problems that have not yet been solved at the moment and are relevant from the point of view of analysis and increasing the efficiency of business decision-making are highlighted. The direction of increasing the efficiency of decision-making support processes due to the collection of relevant data in the web space has been determined. The existing methods and means of an integrated approach to the implementation of the web space data search process based on intelligent technologies are considered. The most popular and widely used programming paradigms are analyzed. In this work, it is proposed to use an agent architecture when designing a monitoring system. This is due to its advantages over other approaches. The directions of research are chosen, the main tasks of the dissertation work are set. In the second chapter of the dissertation, the theoretical foundations of improving the efficiency of business decision-making by developing multi-agent models and methods of collecting and extracting business information in the web space are formed. The use of the mathematical apparatus of algebra of finite predicates is substantiated, the models of search, extraction and retrieval of information based on the use of a comparative model are developed. The concept of collecting and extracting business information based on the use of multi-agent systems is considered. The agent platform is the basic tool for creating intelligent multi-agent systems, which allows you to create, destroy, interpret, launch and move agents. The main functions of agent platforms are: organization of agent interaction; transmission of messages within the platform and between different platforms; support of ontologies; management of agents, their life cycles; search for agents and data about them within the system; ensuring the safety of agents. The methodological basis for creating an agent platform is determined by the MASIF (Mobile Agent System Interoperability Facility) and FIPA (Foundation of Physical Intelligent Agents) standards. The paper proposes the use of FIPA standards, which provide basic definitions of the concepts of agent communication. The basis of the multi-agent approach is the concept of a software agent, which is implemented and functions as an independent specialized computer program or an element of artificial intelligence. The use of software agents allows you to support and improve the business decision-making process. The following new scientific results were obtained on the basis of the research carried out, reflected in this section: a comprehensive approach to the implementation of the process of data collection of the web space based on intelligent technologies was formed; the business information extraction model has been improved. In the third chapter, the methods of searching and collecting business information are improved by using the method of comparative identification to build a model for assessing the relevance of a web page and a multi-agent model of directed search, which provides the opportunity to search for information resources based on the principle of usefulness for decision-making. In general, the developed methods of extracting business information are based on the use of a multi-agent approach and a formal architecture of an agent based on a comparative mental model for searching and collecting data in the web space, which provides a comprehensive approach to solving the problems of collecting business information, allowing to make reasonable business decisions. This approach allows you to ensure the completeness and relevance of commercial information obtained from the web space, which increases the efficiency of business decision-making. The research of this section made it possible to obtain the following results: the model of interpretation of incomplete contradictory information obtained by collecting and extracting it in the web space was further developed. The fourth chapter of the dissertation presents the main results regarding the development of information technology for the collection and extraction of business information based on the proposed method and the developed models for the extraction, interpretation and evaluation of data contained in the web space through the implementation of a multi-agent data processing model. Based on the analysis of the existing approaches to the design of agent-oriented software systems and the specifications of the standards of multi-agent systems, the approaches for building the architecture of the agent platform and the corresponding requirements were selected. The above requirements determine the choice of information system implementation technologies. In this work, a prototype of an agent platform for the implementation of multi-threaded systems in various subject areas has been developed. The paper presents the results of experiments that prove the efficiency of the proposed models. The analysis of the research results showed that the developed method and developed models based on information technology, unlike the existing ones, provide an opportunity to find and collect information that is useful for business, taking into account the semantics of the content of web resources, excluding duplicates and assessing completeness and data reliability. According to the studies of this section, the following results were obtained: a specification of software requirements was created; software components of the server part of the software system were developed, which allows data extraction from virtual trading platforms; conducted experiments on the suitability of the agent platform for solving the task of collecting and extracting business information; testing of the developed software components was carried out and their effectiveness for the implementation of multi-agent data processing was proven. The dissertation work was carried out within the framework of research works: "Creation of models and methods of collection and automated processing of business information in the web space", N 0119U002556; "Development of methods for monitoring actual data in organizational management systems" N 0121U108870, in which the author participated as an executor of individual stages. The scientific novelty of the obtained results is as follows: - The model of business information extraction has received further development due to the introduction of predicates of equivalence of the content of business information, which allows attracting loosely structured text information to ensure completeness of data. - The model for the interpretation of incomplete contradictory heterogeneous data and duplicated data has received further development, which, unlike the existing ones, combines statistical methods and an integral assessment of the quality of the received data, which allows to increase the efficiency of data processing and reduce the dependence on the subjectivity of expert assessments. - The information technology of multi-agent collection of business information in the distributed information space has been improved, which allows extraction of relevant data in real time based on the use of the algebra of finite predicates and a complex of reference models of data collection.


Ключові слова

дисертація, інформаційна технологія, веб-моніторинг, багатоагентна система, пошук та видобування даних, information technology, web-monitoring, multi-agent system, data retrieval and extraction

Бібліографічний опис

Матвєєв О. М. Багатоагентні моделі та методи збору та видобування бізнес-інформації у веб-просторі [Електронний ресурс] : дис. ... д-ра філософії : спец. 122 : галузь знань 12 / Олександр Миколайович Матвєєв ; наук. керівник Чередніченко О. Ю. ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2021. – 136 с. – Бібліогр.: с. 117-130. – укр.



