Кафедри

Постійне посилання на розділhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/35393

Переглянути

Результати пошуку

Зараз показуємо 1 - 9 з 9
  • Ескіз
    Документ
    Semantic Similarity Detection in a Single Text
    (2020) Polityuk, Anna; Orobinska, Olena
    To solve many of the problems of automatic natural language processing, it is often necessary to have a dictionary of synonymous terms. To simplify its using is objective of our experiment. We propose the method that realize the lexical approach and provide the detecting all synonyms in a single text and visualize the results directly in the text. The results depend on the completeness of the lexical source. But it is a bottleneck problem of most of thesaurus.
  • Ескіз
    Документ
    Building the Semantic Similarity Model for Social Network Data Streams
    (Institute of Electrical and Electronics Engineers, 2018) Petrasova, S. V.; Khairova, N. F.; Lewoniewski, Wlodzimierz
    This paper proposes the model for searching similar collocations in English texts in order to determine semantically connected text fragments for social network data streams analysis. The logical-linguistic model uses semantic and grammatical features of words to obtain a sequence of semantically related to each other text fragments from different actors of a social network. In order to implement the model, we leverage Universal Dependencies parser and Natural Language Toolkit with the lexical database WordNet. Based on the Blog Authorship Corpus, the experiment achieves over 0.92 precision.
  • Ескіз
    Документ
    Технологія визначення інформаційного порядку денного в потоках новинних даних
    (Національний технічний університет "Харківський політехнічний інститут", 2021) Петрасова, Світлана Валентинівна; Хайрова, Ніна Феліксівна; Колесник, Анастасія Сергіївна
    З кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.
  • Ескіз
    Документ
    Semantic Similarity Identification for Short Text Fragments
    (2019) Chuiko, Viktoriia; Khairova, N. F.
    The paper contains review of the existing methods for semantic similarity identification, such as methods based on the distance between concepts and methods based on lexical intersection. We proposed a method for measuring the semantic similarity of short text fragment, i.e. two sentences. Also, we created corpus of mass-media text. It contains articles of Kharkiv news, that were sorted by their source and date. Then we annotated texts. We defined semantic similarity of sentences manually. In this way, we created learning corpus for our future system.
  • Ескіз
    Документ
    Метод автоматичного визначення семантично близьких фрагментів новинних текстів
    (Національний технічний університет "Харківський політехнічний інститут", 2019) Петрасова, Світлана Валентинівна; Галкіна, Яна Романівна; Мануйлов, Ілля Олександрович; Бородіна, Олександра Русланівна; Швець, Софія Ігорівна
    Складність семантичного аналізу текстової інформації, що міститься в новинних повідомленнях, визначається багатозначністю і синонімічністю, які властиві мові на всіх рівнях її представлення, що, перш за все, впливає на визначення смислово ї близькості мовних одиниць. Виявлення семантично близьких фрагментів текстів або перефразувань є актуальною проблемою у таких наукових напрямках як семантичний пошук інформації, видобування інформації, машинний переклад, визначення порушень авторських прав і т.п. , крім того широко використовується при рерайтингу. У статті проаналізовано основні проблеми рерайтинга, зокрема перефразування синтаксичних одиниць тексту зі збереженням смислового навантаження. Розглянуто сучасні методи визначення семантичної близькості слів, вказано основні переваги та недоліки. Запропоновано метод автоматичного виявлення синонімічних фрагментів новинних текстів на основі використання WordNet та розроблених синтаксичних правил, які зберігають інформацію про граматичні характеристики слів. Перевагою даного методу є те, що аналізується як граматична структура мови, так і смисл слів. Досліджуваний корпус представлено новинними текстами інформаційного агентства Reuters, служб CNN і BBC World News. Запропонований метод ідентифікації семантично зв’язних фрагментів тексту дозволяє виявити спільний інформаційний простір актуальних новин та може використовуватися для ефективного визначення близьких за змістом текстів в інформаційно-пошукових, експертних, аналітичних інформаційних системах. Вирішення завдання автоматичного визначення семантичної близькості може застосовуватися при автоматизованій побудові онтологій по тексту, для розширення існуючих і створення нових тезаурусів.
  • Ескіз
    Документ
    Идентификация смысловой близости фрагментов текстов наукометрических баз
    (ITHEA, Bulgaria, 2018) Петрасова, Светлана Валентиновна; Хайрова, Нина Феликсовна; Киселева, В.
    Сложность анализа текстовой информации, содержащейся в наукометрических системам, определяется многозначностью и синонимичностью, которые свойственны языку на всех уровнях его представления, что, прежде всего, влияет на определение смыслового единства языковых единиц. При этом решение задачи усложняется, если речь идет о смысловой близости крупных информационных фрагментов. Поэтому в связи со стремительным ростом объемов информационных ресурсов в наукометрических системах и существующими подходами и методами анализа слабоформализованных данных становятся перспективными задачи обработки текстовой информации на базе интеллектуального анализа. В работе рассматривается информационная технология идентификации смысловой близости фрагментов текстов наукометрических систем. Предложенная технология позволяет определять общие информационные пространства научного взаимодействия авторов за счет идентификации семантически эквивалентных коллокаций в текстах. Технология включает модель формального описания семантико-грамматических характеристик слов атрибутивных, глагольных и субстантивных коллокаций и определение предиката семантической эквивалентности двухсловных коллокаций на основе уравнений алгебры конечных предикатов. Программная имплементация модели представляет собой веб-приложение, определяющее семантически близкие текстовые фрагменты статей, индексируемых в наукометрических базах Google Scholar и Science Direct. В результате определяется эвристическая оценка эффективности разработанной технологии для каждого типа коллокаций.
  • Ескіз
    Документ
    Использование технологии идентификации систематически связных элементов текста для определения единого информационного пространства
    (Інститут кібернетики ім. В. М. Глушкова Національної академії наук України, 2017) Петрасова, Светлана Валентиновна; Хайрова, Нина Феликсовна
    Предложенная технология позволяет определять единое информационное пространство актеров социальных сетей за счет идентификации семантической эквивалентности коллокации в текстах. Технология включает модель формального описания семантико-грамматических характеристик коллокатов, идентификацию коллокации и определение предиката семантической эквивалентности двухсловных коллокаций.
  • Ескіз
    Документ
    Математическая модель идентификации семантических отношений толерантности и эквивалентности
    (ITHEA, 2015) Петрасова, Светлана Валентиновна; Хайрова, Нина Феликсовна
    Формализация отношения семантики является сложно реализуемой задачей автоматической обработки текстов по причине неявной выраженности в естественно-языковых конструкциях. В работе предлагается математическая модель идентификации таких семантических отношений, как толерантность и эквивалентность на базе знаний глоссария. Рассматриваются семантические отношения терминов глоссария с точки зрения возможности идентификации концептов и их отношений. Предложенная математическая модель идентификации семантических отношений позволяет выделить классы синонимичности терминов в одном из своих концептуальных значений за счет факторизации пространства концептов. Для формализации категорий межконцептуальных отношений предлагается использовать диапазон значений коэффициента семантической близости. В результате определяется эвристическая оценка эффективности разработанной модели идентификации семантических корреляций концептов.
  • Ескіз
    Документ
    Подход к построению репозитория моделей бизнес-процессов
    (Харківський національний університет Повітряних Сил ім. Івана Кожедуба, 2018) Копп, Андрей Михайлович; Орловский, Дмитрий Леонидович
    Рассматривается проблема хранения и распространения знаний о деятельности организации, представленных в виде набора моделей бизнес-процессов. Рассматривается определение, эталонная архитектура и требования к построению репозитория моделей бизнес-процессов, основные особенности и недостатки существующих решений. Предлагается подход к построению репозитория, позволяющего выполнять анализ моделей бизнес-процессов и формирование рекомендаций по их совершенствованию, определе-ние семантической близости между моделями бизнес-процессов с целью их повторного использования при проектировании новых или совершенствовании существующих бизнес-процессов организации.