Моделі, методи та інформаційна технологія інтелектуальної обробки текстового опису товарів масового вжитку
Файли
Дата
2023
Автори
ORCID
DOI
Науковий ступінь
доктор філософії
Рівень дисертації
Шифр та назва спеціальності
122 – Комп'ютерні науки
Рада захисту
Разова спеціалізована рада ДФ 64.050.112
Установа захисту
Національний технічний університет "Харківський політехнічний інститут"
Науковий керівник
Чередніченко Ольга Юріївна
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 122 - Комп’ютерні науки (12 - Інформаційні технології). - Національний технічний університет “Харківський політехнічний інститут” Міністерства освіти і науки України, м. Харків, 2023. У дисертаційній роботі вирішена науково-практична задача ідентифікації комплексного сприйняття семантики товарних пропозицій на онлайн-платформах електронної комерції шляхом інтелектуальної обробки текстового опису товарів, що дозволяє систематизувати пропозиції товарів та спростити пошук. Об’єктом дослідження є процес обробки текстової інформації в системах електронної комерції. Предметом дослідження є моделі, методи та інформаційна технологія інтелектуальної обробки текстового опису товарів масового вжитку. Метою дисертаційного дослідження є підвищення точності визначення схожості товарів масового вжитку на основі їх текстових описів, представлених в системі електронної комерції. При вирішенні завдань дисертаційного дослідження використані: методсистемного аналізу для розробки концепції інтелектуальної обробки текстового опису товарів масового вжитку; методи математичної статистики, методи теорії прийняття рішень; інструменти NLP для створення моделі текстового опису товарів, моделі оцінки схожості товарів, алгоритму створення тегового ядра та моделі еталонного товару; методи теорії інтелекту для розробки моделі визначення схожості товарних пропозицій, методи експертного оцінювання для збору даних на основі краудсорсінгу; стандарт IDEF та уніфікована мова моделювання UML для проєктування інформаційної технології та компонентів програмного забезпечення, компонентно-орієнтовані методи для розробки інформаційної технології інтелектуальної обробки текстових описів. У вступі обґрунтовано актуальність теми дослідження, сформульовані мета, задачі та методи дослідження, відображено зв’язок дослідження з науковими програмами кафедри, наведено наукову новизну та практичне значення отриманих результатів, зазначено особистий внесок здобувача. В першому розділі здійснено дослідження стану розвитку електронної комерції, проблем та переваг, які супроводжують даний розвиток, проаналізовано особливості реалізації рекомендаційних систем, та запропоновані можливі покращення щодо реалізації та функціонування рекомендаційних систем. Виявлено, що багато дослідників акцентувало увагу на необхідності обробки текстової інформації представлення товару для систематизації та нормалізації інформації про товари та використання отриманої структурованої інформації для визначення схожості товарів, і, як наслідок для підвищення точності рекомендацій. Проведено аналіз сучасного стану завдань текстової обробки інформації, зокрема вирішення задач розпізнавання сутностей (entity resolution - ER) та визначення схожості товарів (item matching - IM), особливостей реалізації підходів щодо вирішення цих задач, проведено дослідження сучасних методів, підходів та алгоритмів, які використовуються для обробки текстової інформації, проаналізовано характеристики текстового представлення товарів, які використовують в сучасних підходах обробки текстової інформації в системах електронної комерції. У другому розділі обґрунтовано концепцію інтелектуальної обробки текстової інформації в системах електронної комерції, визначені основні етапи. Обґрунтовано необхідність використання алгоритмів векторизації та методів машинного навчання для обробки неструктурованих текстових даних. Розроблено модель представлення текстового опису товарів, яка є основою для подальшого аналізу та визначення схожості товарів. Запропоновано застосування етапу блокування (blocking) для зменшення складності обробки великого обсягу текстових описів, що дозволяє за рахунок поділу всього набору текстових даних на групи схожих товарів зменшити розрахункову складність алгоритмів співставлення текстових описів. Запропоновано модель гнучкого пайплайну оброки текстових даних, яка дозволяє оптимізувати параметри блокування за рахунок вибору конфігурації на основі наявної бібліотеки алгоритмів векторизації та кластеризації. У третьому розділі представлено методи співставлення та групування товарів в системі електронної комерції, розроблена модель визначення схожості товарів, яка базується на запропонованій у другому розділі моделі представлення текстового опису товарів. Запропоновано застосування підходу краудсорсінгу для збору додаткової інформації щодо визначення схожості товарів на основі порівняння зображень товарів та визначення колективної оцінки. Розроблено алгоритм побудови тегового ядра (множини ключових слів) для групи схожих товарів, який дозволяє визначити релевантні до кожного товару теги, які у сукупності характеризують всю групу схожих товарів та є найбільш вживаними в текстових описах товарів на онлайн платформах. Розроблена модель еталонного товару з урахуванням семантики текстового представлення та узагальнених значень артибутів. Розглянуто пошук товарів з використанням моделі еталонного товару на основі підходу навчання з підкріпленням. У четвертому розділі представлено розроблену інформаційну технологію інтелектуальної обробки текстових описів товарів та результати проєктування компонентів програмного забезпеченнчя. Інформаційна технологія базується на підході щодо створення гнучкого пайплану обробки текстових даних та включає в себе ряд процесів обробки та перетворення неструктурованої текстової інформації в змістовний структурований набір ключових слів (тегове ядро), які характеризують групу схожих товарів. Представлено прототип архітектурного рішення, яке використовує принципи компонентно-орієнтованої розробки. Також наведено основні результати експериментальних досліджень та апробації розроблених моделей, підходів, алгоритмів щодо інтелектуальної обробки текстової інформації, а також практичне впровадження підходу Результати експериментів підтверджують працездатність запропонованих моделей. У висновках коротко охарактеризовано вирішені завдання дисертаційної роботи, представлено теоретичну та практичну значущість отриманих результатів, наведено дані про впровадження та апробацію основних результатів дослідження. Наукова новизна проведеного дослідження полягає в наступному: 1 Удосконалено модель текстового опису товарів масового вжитку, що на відміну від існуючих базується на ідентифікації комплексного сприйняття людиною товарних пропозицій, що дозволяє підвищити точність визначення відповідності реальному товару за рахунок врахування семантики трьох складових опису (назва, характеристика, специфікація). 2 Удосконалено модель схожості товарів, яка дозволяє порівнювати споживчі характеристики товарів електронної комерції на основі їх текстового опису та, на відміну від існуючих, враховує вподобання споживачів та сприйняття текстового опису, що дозволяє систематизувати пропозиції та спростити пошук. 3 Дістала подальшого розвитку інформаційна технологія інтелектуальної обробки текстових описів товарів за рахунок вдосконалення моделі текстового опису товару, групування схожих товарів та представлення групи схожих товарів ядром тегів та еталонним товаром, що на відміну від існуючих підходів, дозволяє підвищити ефективність пошуку та ідентифікації товарів. Результати дисертаційної роботи впроваджено у навчальному процесі кафедри програмної інженерії та інтелектуальних технологій управління Національного технічного університету «Харківський політехнічний інститут» (акт від 14.11.2022 р.), використано у науково-дослідних роботах "Розробка інформаційно-аналітичного забезпечення управління ефективністю та якістю в складних системах за умови євроінтеграції України» (ДР № 0117U004806), «Створення моделей та методів збору та автоматизованої переробки бізнес-інформації у веб-просторі» (ДР № 0119U002556), «Розробка методів моніторингу актуальних даних в системах організаційного управління» (ДР № 0121U108870), у яких здобувачка брала участь як виконавиця окремих етапів (акт від 01.11.2022 р.) та впроваджено для вирішення практичних завдань в діяльності ТОВ Фінпрогруп» (довідка від 06.01.2023 р.).
The dissertation for obtaining the scientific degree of Doctor of Philosophy in specialty 122 - Computer Science (12 - Information Technologies). - National Technical University «Kharkiv Polytechnic Institute» of the Ministry of Education and Science of Ukraine, Kharkiv, 2023. In the dissertation, the scientific and practical task of identifying the complex perception of the semantics of product offers on online e-commerce platforms is solved by means of intellectual processing of the textual description of products, which allows systematizing product offers and simplifying the search. The object of research is the proceeding of processing textual information in electronic commerce systems. The subject of research is models, methods and information technology of intellectual processing of text descriptions of consumer goods. The aim of the dissertation research is to increase the accuracy of determining the similarity of consumer goods based on their textual descriptions presented in the electronic commerce system. When solving the tasks of the dissertation research, the following were used: the method of system analysis for the development of the concept of intellectual processing of the textual description of consumer goods; methods of mathematical statistics, methods of decision-making theory; NLP tools for creating a product text description model, a product similarity assessment model, a tag core creation algorithm, and a reference product model; methods of the theory of intelligence for the development of a model for determining the similarity of product offers, methods of expert evaluation for data collection based on crowdsourcing; the IDEF standard and the unified UML modeling language for designing information technology and software components, component-oriented methods for the development of information technology for intellectual processing of text descriptions. In the introduction, the relevance of the research topic is justified, the goal, tasks and methods of the research are formulated, the connection of the research with the scientific programs of the department are shown, the scientific novelty and practical significance of the obtained results are given, and the personal contribution of the candidate is indicated. In the first chapter, a study of the state of development of e-commerce, problems and advantages accompanying this development was carried out, the peculiarities of the implementation of recommendation systems were analyzed, and possible improvements regarding the implementation and functioning of recommendation systems were proposed. It was revealed that many researchers focused on the need to process the textual information of product presentation to systematize and normalize product information and use the resulting structured information to determine the similarity of products, and as a result, to increase the accuracy of recommendations. An analysis of the current state of tasks of text processing of information was carried out, in particular, solving the tasks of entity resolution (ER) and determining the item matching (IM), the peculiarities of the implementation of approaches to solving these tasks, a study of modern methods, approaches and algorithms that are used for the processing of text information, the characteristics of the text presentation of goods, which are used in modern approaches to the processing of text information in e-commerce systems, are analyzed. The second chapter substantiates the concept of intellectual processing of text information in e-commerce systems, defines the main stages. The necessity of using vectorization algorithms and machine learning methods for processing unstructured text data is substantiated. The item text description model has been developed, which is the basis for further analysis and determining the similarity of goods. The application of the blocking stage is proposed to reduce the complexity of processing a large volume of text descriptions, which allows to reduce the computational complexity of algorithms for matching text descriptions due to the division of the entire set of text data into groups of similar goods. A model of a flexible pipeline for processing text data is proposed, which allows you to optimize blocking parameters by choosing a configuration based on the available library of vectorization and clustering algorithms. The third chapter presents the methods of comparison and grouping of goods in the electronic commerce system, the item similarity model is developed, which is based on the item text description model proposed in the second chapter. It is proposed to use a crowdsourcing approach to collect additional information on determining the similarity of products based on comparing images of products and determining a collective assessment. The item tag core algorithm for building a tag core (a set of keywords) for a group of similar products has been developed, which allows you to determine the tags relevant to each product, which collectively characterize the entire group of similar products and are the most used in text descriptions of products on online platforms. The reference item model was developed taking into account the semantics of the text representation and the generalized values of the artifacts. Product search using the reference item model based on the reinforcement learning approach is considered. The fourth chapter presents the developed information technology for intelligent processing of text descriptions of goods and the results of designing software components. Information technology is based on an approach to creating a flexible payplan for text data processing and includes a number of processing processes and transformation of unstructured text information into a meaningful structured set of keywords (tag core) that characterize a group of similar products. A prototype of an architectural solution that uses the principles of component-oriented development is presented. The main results of experimental research and testing of the developed models, approaches, algorithms for intelligent processing of text information are also given, as well as the practical implementation of the approach. The results of the experiments confirm the efficiency of the proposed models. The conclusions briefly describe the solved tasks of the dissertation work, present the theoretical and practical significance of the obtained results, and provide data on the implementation and testing of the main research results. The scientific novelty of the conducted research is as follows: 1 The item text description model has been improved, which, unlike the existing ones, is based on the identification of complex human perception of product offers, which allows to increase the accuracy of determining the conformity to the real product by taking into account the semantics of the three components of the description (name, characteristic, specification). 2 The item similarity model has been improved, which allows comparing the consumer characteristics of e-commerce products based on their text description and, unlike the existing ones, takes into account consumer preferences and perception of the text description, which allows systematizing offers and simplifying the search. 3 The information technology of intellectual processing of text descriptions of goods has received further development due to the improvement of the item text description model, grouping of similar goods and representation of a group of similar goods by the tag core and a reference item, which, unlike existing approaches, allows to increase the efficiency of the search and identification of goods. The results of the dissertation work were implemented in the educational process of the Department of Software Engineering and Management Intellectual Technologies of National Technical University «Kharkiv Polytechnic Institute» (act dated 14.11.2022), used in research works "Development of information and analytical support for management of efficiency and quality in complex systems under the conditions of European integration of Ukraine" (RW No. 0117U004806), "Creation of models and methods of collection and automated processing of business information in the web space" (RW No. 0119U002556), "Development of methods for monitoring actual data in organizational management systems" (RW No. 0121U108870 ), in which the candidate participated as an executor of individual stages (act dated 01.11.2022) and implemented to solve practical tasks in the activities of LLC «Finprogroup" (certificate dated 06.01.2023).
The dissertation for obtaining the scientific degree of Doctor of Philosophy in specialty 122 - Computer Science (12 - Information Technologies). - National Technical University «Kharkiv Polytechnic Institute» of the Ministry of Education and Science of Ukraine, Kharkiv, 2023. In the dissertation, the scientific and practical task of identifying the complex perception of the semantics of product offers on online e-commerce platforms is solved by means of intellectual processing of the textual description of products, which allows systematizing product offers and simplifying the search. The object of research is the proceeding of processing textual information in electronic commerce systems. The subject of research is models, methods and information technology of intellectual processing of text descriptions of consumer goods. The aim of the dissertation research is to increase the accuracy of determining the similarity of consumer goods based on their textual descriptions presented in the electronic commerce system. When solving the tasks of the dissertation research, the following were used: the method of system analysis for the development of the concept of intellectual processing of the textual description of consumer goods; methods of mathematical statistics, methods of decision-making theory; NLP tools for creating a product text description model, a product similarity assessment model, a tag core creation algorithm, and a reference product model; methods of the theory of intelligence for the development of a model for determining the similarity of product offers, methods of expert evaluation for data collection based on crowdsourcing; the IDEF standard and the unified UML modeling language for designing information technology and software components, component-oriented methods for the development of information technology for intellectual processing of text descriptions. In the introduction, the relevance of the research topic is justified, the goal, tasks and methods of the research are formulated, the connection of the research with the scientific programs of the department are shown, the scientific novelty and practical significance of the obtained results are given, and the personal contribution of the candidate is indicated. In the first chapter, a study of the state of development of e-commerce, problems and advantages accompanying this development was carried out, the peculiarities of the implementation of recommendation systems were analyzed, and possible improvements regarding the implementation and functioning of recommendation systems were proposed. It was revealed that many researchers focused on the need to process the textual information of product presentation to systematize and normalize product information and use the resulting structured information to determine the similarity of products, and as a result, to increase the accuracy of recommendations. An analysis of the current state of tasks of text processing of information was carried out, in particular, solving the tasks of entity resolution (ER) and determining the item matching (IM), the peculiarities of the implementation of approaches to solving these tasks, a study of modern methods, approaches and algorithms that are used for the processing of text information, the characteristics of the text presentation of goods, which are used in modern approaches to the processing of text information in e-commerce systems, are analyzed. The second chapter substantiates the concept of intellectual processing of text information in e-commerce systems, defines the main stages. The necessity of using vectorization algorithms and machine learning methods for processing unstructured text data is substantiated. The item text description model has been developed, which is the basis for further analysis and determining the similarity of goods. The application of the blocking stage is proposed to reduce the complexity of processing a large volume of text descriptions, which allows to reduce the computational complexity of algorithms for matching text descriptions due to the division of the entire set of text data into groups of similar goods. A model of a flexible pipeline for processing text data is proposed, which allows you to optimize blocking parameters by choosing a configuration based on the available library of vectorization and clustering algorithms. The third chapter presents the methods of comparison and grouping of goods in the electronic commerce system, the item similarity model is developed, which is based on the item text description model proposed in the second chapter. It is proposed to use a crowdsourcing approach to collect additional information on determining the similarity of products based on comparing images of products and determining a collective assessment. The item tag core algorithm for building a tag core (a set of keywords) for a group of similar products has been developed, which allows you to determine the tags relevant to each product, which collectively characterize the entire group of similar products and are the most used in text descriptions of products on online platforms. The reference item model was developed taking into account the semantics of the text representation and the generalized values of the artifacts. Product search using the reference item model based on the reinforcement learning approach is considered. The fourth chapter presents the developed information technology for intelligent processing of text descriptions of goods and the results of designing software components. Information technology is based on an approach to creating a flexible payplan for text data processing and includes a number of processing processes and transformation of unstructured text information into a meaningful structured set of keywords (tag core) that characterize a group of similar products. A prototype of an architectural solution that uses the principles of component-oriented development is presented. The main results of experimental research and testing of the developed models, approaches, algorithms for intelligent processing of text information are also given, as well as the practical implementation of the approach. The results of the experiments confirm the efficiency of the proposed models. The conclusions briefly describe the solved tasks of the dissertation work, present the theoretical and practical significance of the obtained results, and provide data on the implementation and testing of the main research results. The scientific novelty of the conducted research is as follows: 1 The item text description model has been improved, which, unlike the existing ones, is based on the identification of complex human perception of product offers, which allows to increase the accuracy of determining the conformity to the real product by taking into account the semantics of the three components of the description (name, characteristic, specification). 2 The item similarity model has been improved, which allows comparing the consumer characteristics of e-commerce products based on their text description and, unlike the existing ones, takes into account consumer preferences and perception of the text description, which allows systematizing offers and simplifying the search. 3 The information technology of intellectual processing of text descriptions of goods has received further development due to the improvement of the item text description model, grouping of similar goods and representation of a group of similar goods by the tag core and a reference item, which, unlike existing approaches, allows to increase the efficiency of the search and identification of goods. The results of the dissertation work were implemented in the educational process of the Department of Software Engineering and Management Intellectual Technologies of National Technical University «Kharkiv Polytechnic Institute» (act dated 14.11.2022), used in research works "Development of information and analytical support for management of efficiency and quality in complex systems under the conditions of European integration of Ukraine" (RW No. 0117U004806), "Creation of models and methods of collection and automated processing of business information in the web space" (RW No. 0119U002556), "Development of methods for monitoring actual data in organizational management systems" (RW No. 0121U108870 ), in which the candidate participated as an executor of individual stages (act dated 01.11.2022) and implemented to solve practical tasks in the activities of LLC «Finprogroup" (certificate dated 06.01.2023).
Опис
Ключові слова
дисертація, інформаційна технологія, модель, текст, обробка природньої мови, програмна система, семантика, семантичне ядро, нейронна мережа, співставлення товарів, класифікація, електронна комерція, information technology, model, text, natural language processing, software system, semantics, semantic core, neural network, item matching, classification, e-commerce
Бібліографічний опис
Іващенко О. В. Моделі, методи та інформаційна технологія інтелектуальної обробки текстового опису товарів масового вжитку [Електронний ресурс] : дис. ... д-ра філософії : спец. 122 : галузь знань 12 / Оксана Віталіївна Іващенко ; наук. керівниця Чередніченко О. Ю. ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2023. – 172 с. – Бібліогр.: с. 146-162. – укр.