Технологія визначення інформаційного порядку денного в потоках новинних даних

Петрасова, Світлана Валентинівна; Хайрова, Ніна Феліксівна; Колесник, Анастасія Сергіївна

doi:https://doi.org/10.20998/2079-0023.2021.01.14

Технологія визначення інформаційного порядку денного в потоках новинних даних

dc.contributor.author	Петрасова, Світлана Валентинівна	uk
dc.contributor.author	Хайрова, Ніна Феліксівна	uk
dc.contributor.author	Колесник, Анастасія Сергіївна	uk
dc.date.accessioned	2021-07-26T07:10:55Z
dc.date.available	2021-07-26T07:10:55Z
dc.date.issued	2021
dc.description.abstract	З кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.	uk
dc.identifier.citation	Петрасова С. В. Технологія визначення інформаційного порядку денного в потоках новинних даних / С. В. Петрасова, Н. Ф. Хайрова, А. С. Колесник // Вісник Національного технічного університету "ХПІ". Сер. : Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Ser. : System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2021. – № 1 (5). – С. 86-90.	uk
dc.identifier.doi	https://doi.org/10.20998/2079-0023.2021.01.14
dc.identifier.orcid	https://orcid.org/0000-0001-6011-135X
dc.identifier.orcid	https://orcid.org/0000-0002-9826-0286
dc.identifier.orcid	https://orcid.org/0000-0001-5817-0844
dc.identifier.uri	https://repository.kpi.kharkov.ua/handle/KhPI-Press/53657
dc.language.iso	uk
dc.publisher	Національний технічний університет "Харківський політехнічний інститут"	uk
dc.subject	логіко-лінгвістична модель	uk
dc.subject	дистрибутивно-статистична модель	uk
dc.subject	колокація	uk
dc.title	Технологія визначення інформаційного порядку денного в потоках новинних даних	uk
dc.title.alternative	Technology for identification of information agenda in news data streams	en
dc.type	Article	en

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: visnyk_KhPI_2021_1_SAUI_Petrasova_Tekhnolohiia.pdf
Розмір:: 958,9 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 11,28 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

Вісник № 01. Системний аналіз, управління та інформаційні технології
Кафедра "Інтелектуальні комп'ютерні системи"