Методологічні основи створення інтелектуальної інформаційної технології моніторингу актуальних даних в системах управління

Ескіз

Дата

2021

ORCID

DOI

Науковий ступінь

доктор технічних наук

Рівень дисертації

докторська дисертація

Шифр та назва спеціальності

05.13.06 – інформаційні технології

Рада захисту

Спеціалізована вчена рада Д 64.050.07

Установа захисту

Національний технічний університет "Харківський політехнічний інститут"

Науковий керівник

Годлевський Михайло Дмитрович

Члени комітету

Куценко Олександр Сергійович
Гамаюн Ігор Петрович
Дорофєєв Юрій Іванович

Назва журналу

Номер ISSN

Назва тому

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

Дисертація на здобуття наукового ступеня доктора технічних наук за спеціальністю 05.13.06 "Інформаційні технології" (122 – Комп'ютерні науки). – Національний технічний університет "Харківський політехнічний інститут", Харків, 2021 р. Об'єкт дослідження – процеси пошуку, збору та видобування актуальних даних у розподіленому інформаційному просторі для вирішення задач управління в соціотехнічних системах. Предмет дослідження – моделі, методи та інтелектуальна інформаційна технологія моніторингу актуальних даних в задачах управління. Дисертацію присвячено вирішенню складної наукової проблеми розв'язування протиріччя між прагненням наукового обґрунтування прийняття ефективних управлінських рішень менеджментом складних соціотехнічних систем та відсутністю методологічних основ моніторингу актуальних даних в розподіленому інформаційному просторі за допомогою інтелектуальної технології, використання якої забезпечить обґрунтованість та ефективність виконання завдань управління в соціотехнічних системах. У вступі обґрунтовано актуальність теми дисертації, зазначено зв'язок роботи з науковими темами, сформульовано мету й задачі дослідження, представлено об'єкт, предмет і методи дослідження, розкрито наукову нови-зну та практичне значення отриманих результатів, наведено інформацію про їх практичне використання, апробацію та висвітлення у публікаціях. У першому розділі проведено аналіз методологічних основ створення інформаційних технологій моніторингу даних в системах управління. Проведено аналіз літературних джерел та аналітичний огляд існуючих моделей та методів збору бізнес-інформації для підтримки процесу прийняття рішень, проаналізовані їх недоліки та переваги. Діяльність більшості підприємств базується на значному архіві електронної документації. Ця документація створюється на основі функціонування та являє собою бізнес-інформацію. Проведено аналіз задачі ефективного управління підприємством в умовах неповноти інформації. В результаті аналітичного огляду виявлено, що існуючі під-ходи до збору та переробки бізнес-інформації розглядають інформацію зага-лом як головний елемент будь-якої з функцій управління, що потребує ско-рочення часу на прийняття управлінських рішень та підвищення актуальності інформації в системах прийняття рішень. Проведений аналіз існуючих підходів до управління складними системами дозволив провести класифікацію типів систем управління та відокремити систему управління, яка характеризується високим ступенем обліку інформації із зовнішнього середовища. Моніторинг актуальних даних є особ-ливим видом інформаційно-аналітичної роботи, що дозволяє збирати різнобічну бізнес-інформацію та використовувати її для цілей управління. В роботі показано, що вирішення задачі підтримки прийняття рішень в системах управління обумовлює визначення великого та малого кіл прийняття рішень та розглядає моніторинг як самостійну задачу прийняття рішень. Зроблено висновки щодо необхідності удосконалення методологічних основ моніторингу актуальних даних з урахуванням сучасних тенденцій управління. Виділено наступні проблеми для вирішення. Першою і найбільш істотною проблемою є те, що колосальні обсяги інформації в Інтернет ускладнюють пошук і вибір дійсно необхідних відомостей. Самі по собі необроблені, неузагальнені і неперевірені дані не можуть забезпечити якісну підтримку при прийнятті рішень. Другою проблемою є те, що інформація в Інтернет має явно виражений динамічний характер: інформація розміщується, модифікується і видаляється. Третя проблема, яку необхідно вирішити, автоматичне вилучення понять з формалізованих масивів інформації і неструктурованих текстів. Четвертою проблемою є необхідність виявлення неочевидних закономірностей і зв'язків. Таким чином, в роботі визначено актуальну науково-прикладну проблему розробки методів, моделей та інформаційної технології моніторингу актуальних даних в системах управління, що на основі синергії інформації із внутрішніх та зовнішніх джерел даних дозволить забезпечити ефективність управління в складних соціотехнічних системах. У другому розділі проведено аналіз властивостей розподіленого інформаційного простору моніторингу актуальних даних. За допомогою засобів концептуального моделювання розроблено узагальнену структуру системи моніторингу актуальних даних. Розглянуто концептуальні основи створення систем моніторингу актуальних даних у розподіленому інформаційному просторі для вирішення задач управління в соціотехнічних системах. Виходячи з того, що традиційні системи моніторингу орієнтовані на збір даних із внутрішніх джерел, поза увагою системи управління залишаються дані із зовнішніх джерел. Тому запропоновано доповнити існуючий підхід до моніторингу за рахунок реалізації системи моніторингу на основі синергії інформації. Розроблено вербальний опис концепції моніторингу актуальних даних для вирішення завдань управління в складних соціотехнічих системах, який базується на зборі трьох типів інформації: інформація про результати діяльності, яка міститься у внутрішніх інформаційних джерелах; інформація про стан зовнішнього бізнес-середовища, яка міститься у відкритому доступі в мережі Інтернет; інформація про результативність діяльності як відображення у зовнішньому інформаційному просторі. Накопичення великих обсягів даних вимагає нових інструментів їх обробки. Сучасні системи управління дозволяють в автоматизованому режимі забезпечувати процеси підтримки прийняття рішень необхідною інформацією. Використання апарату теорії категорій для подання контенту інформаційного простору дозволяє оперувати різнорідними об'єктами з використанням загальних механізмів і інструментів. Використання даного підходу дозволяє виробити загальні правила і реалізувати їх для роботи з довільними типами контенту. Запропоновано категорну модель системи моніторингу актуальних даних. У третьому розділі наведено моделі для формалізованого опису процесів пошуку та збору інформації, розроблено модель джерела даних, модель збору даних з веб-сторінки та модель інтеграції інформації, яку отримано з різних джерел даних, запропоновано модель екстракції та ідентифікації знань на основі обробки текстової інформації. Моніторинг розглядається як процес безперервного збору та видобування актуальних даних, корисних для вирішення певної задачі управління. Запропоновано концептуальну модель моніторингу актуальних даних, виділено три складові для підтримки процесу моніторингу: модель пошуку джерел, модель видобування даних та модель оцінювання отриманої інформації. Модель пошуку джерел розглядається відносно до пошуку джерел у розподіленому інформаційному просторі, зокрема в мережі Інтернет. Запропоновано модель тематичного пошуку. Оцінка веб-сторінки на предмет її відповідності моделі джерела даних визначається за наявністю різних комбінацій слів у відповідних комбінаціях елементів веб-сторінки. Введено бінарне відношення нерозрізненості 𝑅, показано, що воно є відношенням толерантності, якщо воно рефлексивно та симетрично. Відношення 𝑅 показує толерантність моніторингової інформації, яка представлена в текстовому вигляді, відповідно до онтологічного опису об'єктів моніторингу. Дане відношення дозволяє виконувати операції не з окремими елементами універсуму, а з кластерами толерантних елементів. Інформація, яка міститься на веб-ресурсах, зазвичай характеризує стан об'єкту моніторингу у неявному вигляді, що обумовлює необхідність визначення значень індикаторів моніторингу на основі оцінки характеристик, видобутих з текстової інформації. Вирішення задач збору фактографічної інформації базується на моделях інформаційного фактографічного пошуку та екстракції даних. В роботі розроблено метод збору та ідентифікації інформації для підтримки прийняття рішень за рахунок формалізації інтелектуальних процесів сприйняття інформації на основі комплексу еталонних моделей для збору даних із зовнішніх джерел, що дозволило зменшити обсяги даних, а також урахувати динаміку процесу. Запропоновано модель подання онтологічних знань на основі ідентифікації фактографічної інформації, яка дозволяє знизити залежність від суб'єктивізму експертних оцінок при вирішенні завдань управління. Розроблено комплексний підхід до онтологічного опису процесів пошуку, збору та оцінювання актуальних даних з використанням комплексу еталонних моделей. У четвертому розділі розглянуто методологічні основи побудови методу моніторингу актуальних даних для виконання завдань управління на основі видобування даних з веб-джерел та інтеграції внутрішньої та зовнішньої інформації. Запропоновано багатоагентну реалізацію розроблених моделей пошуку, збору та оцінювання моніторингових даних. Застосування агентної парадигми дозволяє використовувати паралельну обробку даних, що є підгрунтям для забезпечення своєчасності інформації. Для зменшення часового інтервалу розрахунки відповідних алгоритмів обробки даних повинні виконуватися одночасно. В роботі показано, що для реалізації алгоритмів збору даних моніторингу потрібно обрати такий розподіл операцій між серверами паралельних обчислень, який забезпечує мінімальний час виконання алгоритму, що забезпечить своєчасність інформації. Зменшення часу виконання може бути забезпечене також шляхом підбору кращої обчислювальної схеми. В роботі показано, що забезпечення ефективності моніторингу актуальних даних реалізується шляхом корегування параметрів процесу. Для вирішення задачі оптимізації процесу збору даних запропоновано метод підвищення релевантності, який базується на застосуванні методу деформованих конфігурацій, що вимагає статичного дискретного подання процесу моніторингу. У п'ятому розділі розроблено основні принципи створення багатоагентної системи пошуку, екстракції та інтерпретаціїї інформації. Ці задачі декомпозовані на взаємодію агентів, які складають основу реалізації програмної системи моніторингу актуальних даних. Запропоновано формальну архітектуру агента, яка передбачає подання функції агента на основі його ментальної моделі, заданої компаратором. Запропоновано багатошарову агентну модель як основу створення інтелектуальних систем моніторингу для виконання завдань управління на основі онтологічного опису процесів пошуку, збору та оцінювання актуальних даних. На основі порівняльного аналізу обрано агентно-орієнтовану парадигму для реалізації системи моніторингу актуальних даних. Формальна архітектура агента – це інструмент, який дозволяє проектувати поведінку агента із використанням чітких формальних методів. Абстрактна архітектура агента задається через опис середовища, в якому функціонує агент, сприйняття агентом цього середовища та його діями. Задачі пошуку джерел даних, збору та вимірювання декомпозовані на взаємодію агентів, які складають основу програмної реалізації методу пошуку та збору даних моніторингу. Призначення кожного типу агента детально описано у роботі. Для розробки програмної системи використано мову програмування Java та застосовані паттерни проектування типу GoF, шаблон Dependency Injection, принципи SOLID та Сlean Architecture. Основними перевагами такого підходу є: незалежність від фреймворків та конкретних бібліотек; легкість у тестуванні – бізнес правила можуть бути протестовані окремо, без користувацького інтерфейсу, баз даних тощо; незалежність користувацького інтерфейсу – відображення може бути зміненим без впливу на інші компоненти системи, що знижує шанси виникнення потенційних помилок; незалежність від платформи – бізнес правила не прив'язані до особливостей конкретної платформи; незалежність баз даних – бізнес логіка додатку не прив'язана до конкретної бази даних, що дає можливість її зміни у будь-який момент часу без впливу на інші складові системи. Запропоновано еталонну модель інтероперабельності компонентів інформаційної технології моніторингу актуальних даних. В роботі обґрунтовано застосування мікросервісної архітектури та написання окремих модулів системи як незалежних програм, виконання яких буде оброблятися агентною платформою. Таким чином, в роботі розроблено інформаційну технологію монітори-нгу актуальних даних у розподіленому інформаційному просторі для виконання завдань управління шляхом використання багатоагентної архітектури, що дає можливість комплексного вирішення задачі моніторингу. Розроблено прототип програмної системи моніторингу актуальних даних на основі агентно-орієнтованої парадигми програмування із використанням відкритих програмних засобів: агентної платформи JADE, технології доступу та управління кеш-пам'яттю Ehcache, редактору онтології Protégé. У шостому розділі наведено результати експериментів, результати апробацій та впровадження інформаційної технології та окремих її етапів на прикладі завдань пошуку, збору та видобування даних для цілей управління. Як приклад задачі пошуку інформації у розподіленому інформаційному просторі на основі розроблених моделей пошуку джерел даних та програмної системи багатоагентної платформи розглянуто пошук джерел даних щодо результативності наукової діяльності ЗВО. Розроблені в роботі методи екстракції інформації апробовано на зборі маркетингової інформації з торгівельних майданчиків, що розташовані у мережі Інтернет. В роботі експериментально досліджено, що обробка текстової інформації та визначення множини ключових слів, яка описує групу подібних товарів надає можливість автоматизувати процес кластеризації інформаційних об'єктів на основі лінгвістичної обробки їх текстового опису. В роботі наведено результати експериментів щодо пошуку інформації, видобування фактів з текстової інформації, формування класів толерантності інформаційних об'єктів тощо. Розроблені моделі, методи та інформаційна технологія апробовані при вирішенні практичних завдань моніторингу актуальних даних. Отримані теоретичні та практичні результати використані у Публічному Акціонерному Товаристві "БАНК ФОРВАРД" (м. Київ); ТОВ Харківський Технічний Центр Оцінки "ЕКСПЕРТУС" (м. Куп'янськ, Харківської обл.); Науково-дослідному центрі Збройних Сил України "Державний океанаріум" (м. Одеса); ТОВ "КРЕДИТ ТУ Ю" (м. Київ); ТОВ "Сайтос" (м. Харків) та впроваджені у навчальний процес на кафедрі програмної інженерії та інформаційних технологій управління НТУ "ХПІ". У додатках наведено акти та довідки щодо впровадження результатів дисертаційного дослідження, список публікацій за темою дисертації та додатковий матеріал до розділів роботи.
Thesis for scientific degree of Doctor of Technical Sciences in specialty 05.13.06 – Information Technologies (122 – Computer Sciences). – National Technical University "Kharkіv Polytechnic Institute", Ministry of education and science of Ukraine, Kharkіv, 2021. Object of research - processes of search, collection and extraction of actual data in the distributed information space for the decision of problems of management in sociotechnical systems. Subject of research - models, methods and intelligent information technology for monitoring actual data in management tasks. The dissertation is devoted to solution for a complex scientific problem of solving the contradiction between the desire to scientifically substantiate effective decisions making by management of complex socio-technical systems and the lack of methodological bases for monitoring actual data in a distributed information space using intelligent technology, the use of which will ensure the validity and efficiency of management tasks fulfilment in socio-technical systems. The introduction substantiates the relevance of the dissertation topic, indicates the connection of work with scientific topics, formulates the purpose and objectives of the study, presents the object, subject and methods of research, reveals the scientific novelty and practical significance of the results, provides information on their practical use, testing and coverage in publications. In the first section the analysis of methodological bases of creation of information technologies of data monitoring in management systems is carried out. The analysis of literature references and analytical review of existing models and methods of collecting business information to support the decision-making process, their disadvantages and advantages are analyzed. The activities of most companies are based on a large archive of electronic documentation. This documentation is based on operation and it is business information. The analysis of the problem of effective enterprise management in the conditions of incomplete information is carried out. The analytical review found that existing approaches to the collection and processing of business information consider information in general as a key element of any of the management functions, which requires reducing time for management decisions and increasing the relevance of information in decision-making systems. The analysis of existing approaches to the management of complex systems allowed to classify the types of control systems and to separate the control system, which is characterized by a high degree of accounting for information from the external environment. Monitoring of actual data is a special type of information-analytical work that allows you to collect diverse business information and use it for management purposes. The thesis shows that solving the problem of decision support in management systems determines the definition of large and small decision-making circles and considers monitoring as an independent decision-making task. Conclusions are made on the need to improve the methodological basis for monitoring actual data taking into account current management trends. The following problems have been identified for solution. The first and most significant problem is that the vast amount of information on the Internet makes it difficult to find and select the information you really need. Raw, non-aggregated and unverified data alone cannot provide quality decision support. The second problem is that the information on the Internet is clearly dynamic: information is posted, modified and deleted. The third problem that needs to be solved is the automatic removal of concepts from formalized arrays of information and unstructured texts. The fourth problem is the need to identify non-obvious patterns and connections. Thus, the thesis identifies a topical scientific and applied problem of developing methods, models and information technology for monitoring relevant data in management systems, which based on the synergy of information from internal and external data sources will ensure effective management in complex socio-technical systems. In the second section the analysis of properties of the distributed information space of monitoring of actual data is carried out. With the help of conceptual modelling the generalized structure of the system of monitoring of actual data is developed. The conceptual bases of creation of systems of monitoring of actual data in the distributed information space for the decision of problems of management in sociotechnical systems are considered. Based on the fact that traditional monitoring systems are focused on collecting data from internal sources, the management system ignores data from external sources. Therefore, it is proposed to supplement the existing approach to monitoring through the implementation of a monitoring system based on information synergy. A verbal description of the concept of monitoring relevant data to solve management problems in complex socio-technical systems is developed, which is based on the collection of three types of information: information on performance, which is contained in internal information sources; information on the state of the external business environment, which is publicly available on the Internet; information on the effectiveness of activities as a reflection in the external information space. The accumulation of large amounts of data requires new tools for their processing. Modern management systems allow automated mode to provide decision support processes with the necessary information. Using the apparatus of category theory to represent the content of the information space allows you to operate on heterogeneous objects using common mechanisms and tools. Using this approach allows you to develop general rules and implement them to work with arbitrary types of content. A categorical model of the current data monitoring system is proposed. The third section presents models for a formalized description of information retrieval and collection processes, a data source model, a web page data collection model and a model for integrating information obtained from different data sources, and a model for extracting and identifying knowledge based on text processing. Monitoring is seen as a process of continuous collection and extraction of relevant data useful for solving a specific management task. The conceptual model of monitoring of actual data is offered, three components for support of process of monitoring are allocated: model of search of sources, model of extraction of data and model of estimation of the received information. The source search model is considered in relation to the search for sources in a distributed information space, in particular on the Internet. The model of thematic search is offered. The evaluation of a web page for its compliance with the data source model is determined by the presence of different word combinations in the corresponding combinations of web page elements. A binary indistinguishability relation R is introduced, it is shown that it is a tolerance relation if it is reflexive and symmetric. The ratio R shows the tolerance of the monitoring information, which is presented in text form, according to the ontological description of the monitored objects. This relationship allows you to perform operations not with individual elements of the universe, but with clusters of tolerant elements. The information contained on web resources usually characterizes the state of the object of monitoring in an implicit form, which necessitates the determination of the values of monitoring indicators based on the assessment of characteristics extracted from textual information. The solution of problems of collecting factual information is based on models of information search and data extraction. The thesis develops a method of collecting and identifying information to support decision-making by formalizing intellectual processes of information perception based on a set of reference models for collecting data from external sources, which allowed to reduce data and take into account the dynamics of the process. A model of presenting ontological knowledge based on the identification of factual information is proposed, which allows to reduce the dependence on the subjectivity of expert assessments in solving management problems. A comprehensive approach to the ontological description of the processes of search, collection and evaluation of relevant data using a set of reference models has been developed. The fourth section discusses the methodological basis for building a method of monitoring relevant data to perform management tasks based on data extraction from web sources and the integration of internal and external information. Multiagent implementation of the developed models of search, collection and evaluation of monitoring data is offered. The application of the agent paradigm allows the use of parallel data processing, which is the basis for ensuring the timeliness of information. To reduce the time interval, the calculations of the respective data processing algorithms must be performed simultaneously. The thesis shows that for the implementation of monitoring data collection algorithms it is necessary to choose such a distribution of operations between parallel computing servers, which provides the minimum execution time of the algorithm, which will ensure the time-liness of information. Reducing execution time can also be achieved by selecting the best computational scheme. The thesis shows that ensuring the effectiveness of monitoring of relevant data is realized by adjusting the process parameters. To solve the problem of optimizing the data collection process, a method of increasing relevance is proposed, which is based on the application of the method of deformed configurations, which requires a static discrete representation of the monitoring process. The fifth section develops the basic principles of creating a multi-agent system for searching, extracting and interpreting information. These tasks are decomposed into the interaction of agents that form the basis of the software system for monitoring current data. The formal architecture of the agent is offered, which provides the representation of the function of the agent on the basis of its mental model, given by the comparator. A multilayer agent model is proposed as a basis for creating intelligent monitoring systems to perform management tasks based on the ontological description of the processes of search, collection and evaluation of relevant data. Based on the comparative analysis, an agentoriented paradigm was chosen for the implementation of the monitoring system of actual data. Formal agent architecture is a tool that allows you to design agent behavior using clear formal methods. The abstract architecture of the agent is given through the description of the environment in which the agent operates, the agent's perception of this environment and its actions. The tasks of searching for data sources, collecting and measuring are decomposed into the interaction of agents that form the basis of the software implementation of the method of searching and collecting monitoring data. The purpose of each type of agent is described in detail in the thesis. To develop the software system, the Java programming language was used and design patterns such as GoF, Dependency Injection template, SOLID principles and Clean Architecture were used. The main advantages of this approach are: independence from frameworks and specific libraries; ease of testing - business rules can be tested separately, without a user interface, databases, etc .; UI independence - the display can be changed without affecting other components of the system, which reduces the chances of potential errors; platform independence - business rules are not tied to the specifics of a particular platform; database independence - the business logic of the application is not tied to a specific database, which allows you to change it at any time without affecting other components of the system. The reference model of interoperability of components of information technology of monitoring of actual data is offered. The thesis substantiates the use of microservice architecture and writing individual system modules as independent programs, the execution of which will be processed by the agent platform. Thus, the information technology of monitoring of actual data in the distributed information space for performance of management tasks by use of multiagent architecture is developed in the work that gives the chance of the complex decision of a monitoring problem. A prototype of a software system for monitoring up-to-date data based on an agent-oriented programming paradigm using open source software has been developed: the JADE agent platform, Ehcache access and cache management technology, and the Protégé ontology editor. The sixth section presents the results of experiments, the results of testing and implementation of information technology and its individual stages on the example of tasks of search, collection and extraction of data for management purposes. As an example of the problem of information retrieval in the distributed information space on the basis of the developed models of search of data sources and the software system of the multi-agent platform the search of data sources concerning efficiency of scientific activity of university is considered. The methods of information extraction developed in the work were tested at the collection of marketing information from trading platforms located on the Internet. It has been experimentally investigated that the processing of textual information and the definition of a set of keywords that describe a group of similar products makes it possible to automate the process of clustering information objects based on the linguistic processing of their textual description. The thesis presents the results of experiments on information retrieval, extraction of facts from textual information, formation of tolerance classes of information objects, etc. Developed models, methods and information technology are tested in solving practical problems of monitoring actual data. The obtained theoretical and practical results are used in Publichnomu Aktsionernomu Tovarystvi "BANK FORVARD" (Kyiv)); TOV Kharkivskyi Tekhnichnyi Tsentr Otsinky "EKSPERTUS" (Kupiansk, Kharkivskoi obl.); Naukovo-doslidnomu tsentri Zbroinykh Syl Ukrainy "Derzhavnyi okeanarium" (Odesa); TOV "KREDYT TU Yu" (Kyiv); TOV "Saitos" (Kharkiv) and implemented into the educational process at the Department of Software Engineering and Information Technology Management NTU "KhPI". The appendices contain acts and certificates on the implementation of the results of the dissertation research, a list of publications on the topic of the dissertation and additional material to the sections of the work.

Опис

Ключові слова

дисертація, інформаційна технологія, моніторинг, багатоагентна система, пошук, видобування даних, information technology, monitoring, multi-agent system, data retrieval, data extraction

Бібліографічний опис

Чередніченко О. Ю. Методологічні основи створення інтелектуальної інформаційної технології моніторингу актуальних даних в системах управління [Електронний ресурс] : дис. ... д-ра техн. наук : спец. 05.13.06 : галузь знань 12 / Ольга Юріївна Чередніченко ; наук. консультант Годлевський М. Д. ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2021. – 350 с. – Бібліогр.: с. 298-322. – укр.

Підтвердження

Рецензія

Додано до

Згадується в