Please use this identifier to cite or link to this item: http://repository.kpi.kharkov.ua/handle/KhPI-Press/53657
Title: Технологія визначення інформаційного порядку денного в потоках новинних даних
Other Titles: Technology for identification of information agenda in news data streams
Authors: Петрасова, Світлана Валентинівна
Хайрова, Ніна Феліксівна
Колесник, Анастасія Сергіївна
Keywords: логіко-лінгвістична модель; дистрибутивно-статистична модель; колокація; смислова близькість; logical-linguistic model; distribution-statistical model; collocation; semantic similarity
Issue Date: 2021
Publisher: Національний технічний університет "Харківський політехнічний інститут"
Citation: Петрасова С. В. Технологія визначення інформаційного порядку денного в потоках новинних даних / С. В. Петрасова, Н. Ф. Хайрова, А. С. Колесник // Вісник Національного технічного університету "ХПІ". Сер. : Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Ser. : System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2021. – № 1 (5). – С. 86-90.
Abstract: З кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.
Currently, the volume of news data streams is growing that contributes to increasing interest in systems that allow automating the big data streams processing. Based on intelligent data processing tools, the semantic similarity identification of text information will make it possible to select common information spaces of news. The article analyzes up-to-date statistical metrics for identifying coherent fragments, in particular, from news texts displaying the agenda, identifies the main advantages and disadvantages as well. The information technology is proposed for identifying the common information space of relevant news in the data stream for a certain period of time. The technology includes the logical-linguistic and distributive-statistical models for identifying collocations. The MI distributional semantic model is applied at the stage of potent ial collocation extraction. At the same time, regular expressions developed in accordance with the grammar of the English language make it possible to identify grammatically correct constructions. The advantage of the developed logical-linguistic model formalizing the semantic-grammatical characteristics of collocations, based on the use of algebraic-predicate operations and a semantic equivalence predicate, is that both the grammatical structure of the language and the meaning of words (collocates) are analyzed. The WordNet thesaurus is used to determine the synonymy relationship between the main and dependent collocation compon ents. Based on the investigated corpus of news texts from the CNN and BBC services, the effectiveness of the developed technology is assessed. The analysis shows that the precision coefficient is 0.96. The use of the proposed technology could improve the quality of news streams processing. The solution to the problem of automatic identification of semantic similarity can be used to identify texts of the same domain, relevant information, extract facts and eliminate semantic ambiguity, etc.
ORCID: orcid.org/0000-0001-6011-135X
orcid.org/0000-0002-9826-0286
orcid.org/0000-0001-5817-0844
DOI: doi.org/10.20998/2079-0023.2021.01.14
URI: http://repository.kpi.kharkov.ua/handle/KhPI-Press/53657
Appears in Collections:Вісник № 01. Системний аналіз, управління та інформаційні технології
Кафедра "Інтелектуальні комп'ютерні системи"

Files in This Item:
File Description SizeFormat 
visnyk_KhPI_2021_1_SAUI_Petrasova_Tekhnolohiia.pdf958,9 kBAdobe PDFThumbnail
View/Open
Show full item record  Google Scholar



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.