Кафедри
Постійне посилання на розділhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/35393
Переглянути
4 результатів
Результати пошуку
Документ Using a Distributional Semantic Model for Collocation Identification(2020) Mosinyan, Anna; Petrasova, SvitlanaThis paper proposes the approach to automatic collocation identification using both the distributional semantic model and POS-tagging. The authors suggest calculating PMI to obtain a sequence of collocations from the designed corpus of research abstracts. Then POS-tagging is applied to classify collocations extracted from the text corpus.Документ Using a Technology for Identification of Semantically Connected Text Elements to Determine a Common Information Space(Springer, 2017) Petrasova, S. V.; Khairova, N. F.A technology is proposed that makes it possible to determine the common information space of actors of social networks by identifying the semantic equivalence of collocations in texts. The technology includes a model of formal description of semantic and grammatical characteristics of collocates, identification of collocations, and determination of a semantic equivalence predicate of two-word collocations.Документ Технологія визначення інформаційного порядку денного в потоках новинних даних(Національний технічний університет "Харківський політехнічний інститут", 2021) Петрасова, Світлана Валентинівна; Хайрова, Ніна Феліксівна; Колесник, Анастасія СергіївнаЗ кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.Документ Использование технологии идентификации систематически связных элементов текста для определения единого информационного пространства(Інститут кібернетики ім. В. М. Глушкова Національної академії наук України, 2017) Петрасова, Светлана Валентиновна; Хайрова, Нина ФеликсовнаПредложенная технология позволяет определять единое информационное пространство актеров социальных сетей за счет идентификации семантической эквивалентности коллокации в текстах. Технология включает модель формального описания семантико-грамматических характеристик коллокатов, идентификацию коллокации и определение предиката семантической эквивалентности двухсловных коллокаций.