Кафедри

Постійне посилання на розділhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/35393

Переглянути

Результати пошуку

Зараз показуємо 1 - 6 з 6

The Logical-Linguistic Model of Fact Extraction from English Texts
(2016) Khairova, N. F.; Petrasova, S. V.; Gautam, Ajit Pratap Singh
In this paper we suggest the logical-linguistic model that allows extracting required facts from English sentences. We consider the fact in the form of a triplet: Subject > Predicate > Object with the Predicate representing relations and the Object and Subject pointing out two entities. The logical-linguistic model is based on the use of the grammatical and semantic features of words in English sentences. Basic mathematical characteristic of our model is logical-algebraic equations of the finite predicates algebra. The model was successfully implemented in the system that extracts and identifies some facts from Web-content of a semi-structured and non-structured English text.
Технологія визначення інформаційного порядку денного в потоках новинних даних
(Національний технічний університет "Харківський політехнічний інститут", 2021) Петрасова, Світлана Валентинівна; Хайрова, Ніна Феліксівна; Колесник, Анастасія Сергіївна
З кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.
Logical-linguistic model for multilingual Open Information Extraction
(2020) Khairova, N. F.; Mamyrbayev, Orken; Mukhsina, Kuralay; Kolesnyk, Anastasiia
Open Information Extraction (OIE) is a modern strategy to extract the triplet of facts from Web-document collections. However, most part of the current OIE approaches is based on NLP techniques such as POS tagging and dependency parsing, which tools are accessible not to all languages. In this paper, we suggest the logical-linguistic model, which basic mathematical means are logical-algebraic equations of finite predicates algebra. These equations allow expressing a semantic role of the participant of a triplet of the fact (Subject-Predicate-Object) due to the relations of grammatical characteristics of words in the sentence. We propose the model that extracts the unlimited domain-independent number of facts from sentences of different languages. The use of our model allows extracting the facts from unstructured texts without requiring a pre-specified vocabulary, by identifying relations in phrases and associated arguments in arbitrary sentences of English, Kazakh, and Russian languages. We evaluate our approach on corpora of three languages based on English and Kazakh bilingual news websites. We achieve the precision of facts extraction over 87% for English corpus, over 82% for Russian corpus and 71% for Kazakh corpus.
Идентификация криминально значимых коллокаций в украиноязычных текстах
(Військовий інститут Київського національного університету ім. Тараса Шевченка, 2013) Хайрова, Нина Феликсовна; Узлов, Дмитрий Юрьевич
В работе предлагается двухэтапный метод идентификации именных коллокаций в криминалистически значимых текстах украинского языка. Метод включает логико-лингвистическую модель автоматического выделения в слабоструктурированном тексте именных словосочетаний и вероятностную модель определения совместимости слов словосочетания, предназначенную для повышения точности идентификации коллокаций.
Інформаційна технологія ідентифікації знань у наукометричних системах на основі інтелектуального аналізу слабоформалізованих даних
(НТУ "ХПІ", 2016) Петрасова, Світлана Валентинівна
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – інформаційні технології. – Національний технічний університет "Харківський політехнічний інститут", Харків, 2017. Мета дисертаційного дослідження – підвищення ефективності процесу ідентифікації знань у наукометричних системах за рахунок побудови моделей і методів інтелектуального аналізу слабоформалізованих даних. Основні результати: уперше розроблено логіко-лінгвістичну модель визначення семантично зв'язних фрагментів слабоформалізованої реферативної інформації, яка заснована на використанні алгебро-предикатних операцій, що дозволяє ефективно ідентифікувати знання у реферативній інформації. Удосконалено метод формалізації смислових відношень сутностей, який базується на використанні міри смислової близькості та відрізняється застосуванням інтелектуального аналізу при виявленні класів еквівалентності та толерантності, що дозволяє визначити неявно виражені відношення близькості й відношення таксономії. Отримав по-дальший розвиток метод компараторної ідентифікації, який використано для класифікації смислових фрагментів рефератів у наукометричних системах що дозволяє виділити єдині інформаційні простори наукової взаємодії авторів за рахунок моделювання функцій інтелекту з розуміння та класифікації смислу. Удосконалено інформаційну технологію ідентифікації знань у наукометричних системах, яка дозволяє за рахунок визначення імпліцитних зв'язків між рефератами наукометричних систем динамічно виявляти спільні фронти наукових досліджень. Результати дослідження знайшли практичне застосування у системах обробки анотацій та рефератів. Використання розроблених у роботі моделей і методів дозволило підвищити ефективність процесу ідентифікації знань у слабоформалізованій реферативній інформації за рахунок підвищення значень коефіцієнтів повноти й точності видачі близької за смислом інформації.
Інформаційна технологія ідентифікації знань у наукометричних системах на основі інтелектуального аналізу слабоформалізованих даних
(НТУ "ХПІ", 2017) Петрасова, Світлана Валентинівна
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – інформаційні технології. – Національний технічний університет "Харківський політехнічний інститут", Харків, 2017. Мета дисертаційного дослідження – підвищення ефективності процесу ідентифікації знань у наукометричних системах за рахунок побудови моделей і методів інтелектуального аналізу слабоформалізованих даних. Основні результати: уперше розроблено логіко-лінгвістичну модель визначення семантично зв'язних фрагментів слабоформалізованої реферативної інформації, яка заснована на використанні алгебро-предикатних операцій, що дозволяє ефективно ідентифікувати знання у реферативній інформації. Удосконалено метод формалізації смислових відношень сутностей, який базується на використанні міри смислової близькості та відрізняється застосуванням інтелектуального аналізу при виявленні класів еквівалентності та толерантності, що дозволяє визначити неявно виражені відношення близькості й відношення таксономії. Отримав по-дальший розвиток метод компараторної ідентифікації, який використано для класифікації смислових фрагментів рефератів у наукометричних системах що дозволяє виділити єдині інформаційні простори наукової взаємодії авторів за рахунок моделювання функцій інтелекту з розуміння та класифікації смислу. Удосконалено інформаційну технологію ідентифікації знань у наукометричних системах, яка дозволяє за рахунок визначення імпліцитних зв'язків між рефератами наукометричних систем динамічно виявляти спільні фронти наукових досліджень. Результати дослідження знайшли практичне застосування у системах обробки анотацій та рефератів. Використання розроблених у роботі моделей і методів дозволило підвищити ефективність процесу ідентифікації знань у слабоформалізованій реферативній інформації за рахунок підвищення значень коефіцієнтів повноти й точності видачі близької за смислом інформації.

Кафедри

Переглянути

Фільтри

Налаштування

Сортувати за

Результатів на сторінку

Результати пошуку