Topic segmentation methods comparison on computer science texts

Вантажиться...
Ескіз

Дата

2021

DOI

doi.org/10.20998/2079-0023.2021.02.10

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

The demand for the creation of information systems that simplifies and accelerates work has greatly increased in the context of the rapid informatization of society and all its branches. It provokes the emergence of more and more companies involved in the development of software products and information systems in general. In order to ensure the systematization, processing and use of this knowledge, knowledge management systems are used. One of the main tasks of IT companies is continuous training of personnel. This requires export of the content from the company's knowledge management system to the learning management system. The main goal of the research is to choose an algorithm that allows solving the problem of marking up the text of articles close to those used in knowledge management systems of IT companies. To achieve this goal, it is necessary to compare various topic segmentation methods on a dataset with a computer science texts. Inspec is one such dataset used for keyword ext raction and in this research it has been adapted to the structure of the datasets used for the topic segmentation problem. The TextTi ling and TextSeg methods were used for comparison on some well-known data science metrics and specific metrics that relate to the topic segmentation problem. A new generalized metric was also introduced to compare the results for the topic segmentation problem. All software implementations of the algorithms were written in Python programming language and represent a set of interrelated functions. Results were obtained showing the advantages of the Text Seg method in comparison with TextTiling when compared using classical data science metrics and special metrics developed for the topic segmentation task. From all the metrics, including the introduced one it can be concluded that the TextSeg algorithm performs better than the TextTiling algorithm on the adapted Inspec test data set.
Попит на створення інформаційних систем, що спрощують і прискорюють роботу, значно зріс в умовах стрімкої інформатизації суспільства та всіх сфер діяльності. Це пов’язано з появою все більшої кількості компаній, що займаються розробкою програмних продуктів та інформаційних систем в цілому. З метою забезпечення систематизації, обробки та використання цих знань використовуються систем и управління знаннями. Одним з головних завдань IT-компаній є постійне навчання персоналу. Для цього потрібно експортувати контент із системи управління знаннями компанії в систему управління навчанням. Основною метою дослідження є вибір алгоритму, який дозволяє вирішити задачу розмітки тексту статей, близьких до тих, що використовуються в системах управління знаннями ІТ-компаній. Для досягнення цієї мети необхідно порівняти різні методи сегментації тем на наборі даних з текстами з комп’ютерних наук. Inspec є одним із таких наборів даних, які використовуються для виділення ключових слів, і у цьому дослідженні він був адаптований до структури наборів даних, які використовуються для проблеми сегментації тем. Методи TextTiling і TextSeg були використані для порівняння деяких добре відомих показників науки про дані та конкретних показників, які стосуються проблеми сегментації тем. Також була введена нова узагальнена метрика для порівняння результатів для задачі сегментації тем. Усі програмні реалізації алгоритмів написані мовою програмування Python і представляють собою набір взаємопов’язаних функцій. Отримано результати, що демонструють переваги методу Text Seg у порівнянні з TextTiling з використанням класичних метрик науки про дані та спеціальних метрик, розроблених для завдання сегментації тем. З усіх метрик, включаючи введену, можна зробити висновок, що алгоритм TextSeg працює краще, ніж алгоритм TextTiling на адаптованому наборі тестових даних Inspec.

Опис

Ключові слова

TextTiling, TextSeg, Inspec, IT Companies, IT-компанії

Бібліографічний опис

Topic segmentation methods comparison on computer science texts / V. Y. Sokol [et al.] // Вісник Національного технічного університету "ХПІ". Сер. : Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Ser. : System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2021. – № 2 (6). – С. 59-66.