122 "Комп'ютерні науки"
Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47370
Переглянути
Документ Моделі, методи та інформаційна технологія інтелектуальної обробки текстового опису товарів масового вжитку(Національний технічний університет "Харківський політехнічний інститут", 2023) Іващенко, Оксана ВіталіївнаДисертація на здобуття наукового ступеня доктора філософії за спеціальністю 122 - Комп’ютерні науки (12 - Інформаційні технології). - Національний технічний університет “Харківський політехнічний інститут” Міністерства освіти і науки України, м. Харків, 2023. У дисертаційній роботі вирішена науково-практична задача ідентифікації комплексного сприйняття семантики товарних пропозицій на онлайн-платформах електронної комерції шляхом інтелектуальної обробки текстового опису товарів, що дозволяє систематизувати пропозиції товарів та спростити пошук. Об’єктом дослідження є процес обробки текстової інформації в системах електронної комерції. Предметом дослідження є моделі, методи та інформаційна технологія інтелектуальної обробки текстового опису товарів масового вжитку. Метою дисертаційного дослідження є підвищення точності визначення схожості товарів масового вжитку на основі їх текстових описів, представлених в системі електронної комерції. При вирішенні завдань дисертаційного дослідження використані: методсистемного аналізу для розробки концепції інтелектуальної обробки текстового опису товарів масового вжитку; методи математичної статистики, методи теорії прийняття рішень; інструменти NLP для створення моделі текстового опису товарів, моделі оцінки схожості товарів, алгоритму створення тегового ядра та моделі еталонного товару; методи теорії інтелекту для розробки моделі визначення схожості товарних пропозицій, методи експертного оцінювання для збору даних на основі краудсорсінгу; стандарт IDEF та уніфікована мова моделювання UML для проєктування інформаційної технології та компонентів програмного забезпечення, компонентно-орієнтовані методи для розробки інформаційної технології інтелектуальної обробки текстових описів. У вступі обґрунтовано актуальність теми дослідження, сформульовані мета, задачі та методи дослідження, відображено зв’язок дослідження з науковими програмами кафедри, наведено наукову новизну та практичне значення отриманих результатів, зазначено особистий внесок здобувача. В першому розділі здійснено дослідження стану розвитку електронної комерції, проблем та переваг, які супроводжують даний розвиток, проаналізовано особливості реалізації рекомендаційних систем, та запропоновані можливі покращення щодо реалізації та функціонування рекомендаційних систем. Виявлено, що багато дослідників акцентувало увагу на необхідності обробки текстової інформації представлення товару для систематизації та нормалізації інформації про товари та використання отриманої структурованої інформації для визначення схожості товарів, і, як наслідок для підвищення точності рекомендацій. Проведено аналіз сучасного стану завдань текстової обробки інформації, зокрема вирішення задач розпізнавання сутностей (entity resolution - ER) та визначення схожості товарів (item matching - IM), особливостей реалізації підходів щодо вирішення цих задач, проведено дослідження сучасних методів, підходів та алгоритмів, які використовуються для обробки текстової інформації, проаналізовано характеристики текстового представлення товарів, які використовують в сучасних підходах обробки текстової інформації в системах електронної комерції. У другому розділі обґрунтовано концепцію інтелектуальної обробки текстової інформації в системах електронної комерції, визначені основні етапи. Обґрунтовано необхідність використання алгоритмів векторизації та методів машинного навчання для обробки неструктурованих текстових даних. Розроблено модель представлення текстового опису товарів, яка є основою для подальшого аналізу та визначення схожості товарів. Запропоновано застосування етапу блокування (blocking) для зменшення складності обробки великого обсягу текстових описів, що дозволяє за рахунок поділу всього набору текстових даних на групи схожих товарів зменшити розрахункову складність алгоритмів співставлення текстових описів. Запропоновано модель гнучкого пайплайну оброки текстових даних, яка дозволяє оптимізувати параметри блокування за рахунок вибору конфігурації на основі наявної бібліотеки алгоритмів векторизації та кластеризації. У третьому розділі представлено методи співставлення та групування товарів в системі електронної комерції, розроблена модель визначення схожості товарів, яка базується на запропонованій у другому розділі моделі представлення текстового опису товарів. Запропоновано застосування підходу краудсорсінгу для збору додаткової інформації щодо визначення схожості товарів на основі порівняння зображень товарів та визначення колективної оцінки. Розроблено алгоритм побудови тегового ядра (множини ключових слів) для групи схожих товарів, який дозволяє визначити релевантні до кожного товару теги, які у сукупності характеризують всю групу схожих товарів та є найбільш вживаними в текстових описах товарів на онлайн платформах. Розроблена модель еталонного товару з урахуванням семантики текстового представлення та узагальнених значень артибутів. Розглянуто пошук товарів з використанням моделі еталонного товару на основі підходу навчання з підкріпленням. У четвертому розділі представлено розроблену інформаційну технологію інтелектуальної обробки текстових описів товарів та результати проєктування компонентів програмного забезпеченнчя. Інформаційна технологія базується на підході щодо створення гнучкого пайплану обробки текстових даних та включає в себе ряд процесів обробки та перетворення неструктурованої текстової інформації в змістовний структурований набір ключових слів (тегове ядро), які характеризують групу схожих товарів. Представлено прототип архітектурного рішення, яке використовує принципи компонентно-орієнтованої розробки. Також наведено основні результати експериментальних досліджень та апробації розроблених моделей, підходів, алгоритмів щодо інтелектуальної обробки текстової інформації, а також практичне впровадження підходу Результати експериментів підтверджують працездатність запропонованих моделей. У висновках коротко охарактеризовано вирішені завдання дисертаційної роботи, представлено теоретичну та практичну значущість отриманих результатів, наведено дані про впровадження та апробацію основних результатів дослідження. Наукова новизна проведеного дослідження полягає в наступному: 1 Удосконалено модель текстового опису товарів масового вжитку, що на відміну від існуючих базується на ідентифікації комплексного сприйняття людиною товарних пропозицій, що дозволяє підвищити точність визначення відповідності реальному товару за рахунок врахування семантики трьох складових опису (назва, характеристика, специфікація). 2 Удосконалено модель схожості товарів, яка дозволяє порівнювати споживчі характеристики товарів електронної комерції на основі їх текстового опису та, на відміну від існуючих, враховує вподобання споживачів та сприйняття текстового опису, що дозволяє систематизувати пропозиції та спростити пошук. 3 Дістала подальшого розвитку інформаційна технологія інтелектуальної обробки текстових описів товарів за рахунок вдосконалення моделі текстового опису товару, групування схожих товарів та представлення групи схожих товарів ядром тегів та еталонним товаром, що на відміну від існуючих підходів, дозволяє підвищити ефективність пошуку та ідентифікації товарів. Результати дисертаційної роботи впроваджено у навчальному процесі кафедри програмної інженерії та інтелектуальних технологій управління Національного технічного університету «Харківський політехнічний інститут» (акт від 14.11.2022 р.), використано у науково-дослідних роботах "Розробка інформаційно-аналітичного забезпечення управління ефективністю та якістю в складних системах за умови євроінтеграції України» (ДР № 0117U004806), «Створення моделей та методів збору та автоматизованої переробки бізнес-інформації у веб-просторі» (ДР № 0119U002556), «Розробка методів моніторингу актуальних даних в системах організаційного управління» (ДР № 0121U108870), у яких здобувачка брала участь як виконавиця окремих етапів (акт від 01.11.2022 р.) та впроваджено для вирішення практичних завдань в діяльності ТОВ Фінпрогруп» (довідка від 06.01.2023 р.).