Кафедри

Постійне посилання на розділhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/35393

Переглянути

Результати пошуку

Зараз показуємо 1 - 9 з 9

Методичні вказівки до виконання лабораторних робіт з курсу "Корпусна лінгвістика". Частина 2
(ФОП Панов А. М., 2021) Хайрова, Ніна Феліксівна; Петрасова, Світлана Валентинівна; Оробінська, Олена Олександрівна
Поняття корпусної лінгвістики виникло в 80-х роках минулого століття. В даний час під корпусною лінгвістикою розуміється розділ мовознавства, що займається розробкою, створенням і використанням текстових корпусів. Водночас корпусні лінгвістика є швидше не складовою частиною загальної лінгвістики, а являє собою методологію або способи використання конкретних ресурсів, що представляють великі обсяги текстових даних. Отже, корпус та спеціальні програмні засоби роботи з цим корпусом є спеціалізованим інструментом лінгвістичних досліджень. Таке спеціалізоване програмне забезпечення, що використовується для дослідження великих обсягів текстових даних, які зібрані у корпусі, називається concordancer. Традиційно в корпусній лінгвістиці можна виділити два напрями вивчення: створення корпусів і дослідження мовних закономірностей за допомогою корпусних методів на базі створених корпусів. Проте, нерідко розробники корпусів проводять одночасно і власні лінгвістичні дослідження. Таким чином корпусна лінгвістика передбачає одночасне використання лінгвістичних знань та знань комп’ютерних технологій, що і зумовлює використання даної дисципліни в навчальному плані студентів спеціальності "Прикладна та комп'ютерна лінгвістика". Дані методичні рекомендації спрямовані на отримання навичок роботи з усіма складовими корпусних завдань, а саме: створення власних корпусів, опанування різних видів корпусної розмітки, використання Інтернету для корпусних досліджень та вживання різних статистичних методів при роботі з корпусами. В другу частину Методичних вказівок до виконання лабораторних робіт з курсу "Корпусна лінгвістика" включено чотири лабораторні роботи, виконання яких дозволяє отримати навички роботи з системою семантичної розмітки USAS, аналізу корпусу в online середовищі CQPweb та обробки кластерів корпусів конкордансером AntConc.
Методичні вказівки до виконання лабораторних робіт з курсу "Корпусна лінгвістика". Частина 1
(ФОП Панов А. М., 2021) Хайрова, Ніна Феліксівна; Петрасова, Світлана Валентинівна; Оробінська, Олена Олександрівна
Поняття корпусної лінгвістики виникло в 80-х роках минулого століття. В даний час під корпусною лінгвістикою розуміється розділ мовознавства, що займається розробкою, створенням і використанням текстових корпусів. Водночас корпусні лінгвістика є швидше не складовою частиною загальної лінгвістики, а являє собою методологію або способи використання конкретних ресурсів, що представляють великі обсяги текстових даних. Отже, корпус та спеціальні програмні засоби роботи з цим корпусом є спеціалізованим інструментом лінгвістичних досліджень. Таке спеціалізоване програмне забезпечення, що використовується для дослідження великих обсягів текстових даних, які зібрані у корпусі, називається concordancer. Традиційно в корпусній лінгвістиці можна виділити два напрями вивчення: створення корпусів і дослідження мовних закономірностей за допомогою корпусних методів на базі створених корпусів. Проте, нерідко розробники корпусів проводять одночасно і власні лінгвістичні дослідження. Таким чином корпусна лінгвістика передбачає одночасне використання лінгвістичних знань та знань комп’ютерних технологій, що і зумовлює використання даної дисципліни в навчальному плані студентів спеціальності "Прикладна та комп'ютерна лінгвістика". Дані методичні рекомендації спрямовані на отримання навичок роботи з усіма складовими корпусних завдань, а саме: створення власних корпусів, опанування різних видів корпусної розмітки, використання Інтернету для корпусних досліджень та вживання різних статистичних методів при роботі з корпусами. В першу частину Методичних вказівок до виконання лабораторних робіт з курсу "Корпусна лінгвістика" включено три лабораторні роботи, виконання яких дозволяє отримати навички роботи з конкордансером AntConc та системою автоматичного POS-tagging CLAWS.
Технологія визначення інформаційного порядку денного в потоках новинних даних
(Національний технічний університет "Харківський політехнічний інститут", 2021) Петрасова, Світлана Валентинівна; Хайрова, Ніна Феліксівна; Колесник, Анастасія Сергіївна
З кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.
Applying VSM to Identify the Criminal Meaning of Texts
(2020) Khairova, N. F.; Kolesnyk, Anastasiia; Mamyrbayev, Orken; Petrasova, S. V.
Generally, to define the belonging of a text to a specific theme or domain, we can use approaches to text classification. However, the task becomes more complicated when there is no train corpus, in which the set of classes and the set of documents belonged to these classes are predetermined. We suggest using the semantic similarity of texts to determine their belonging to a specific domain. Our train corpus includes news articles containing criminal information. In order to define whether the theme of input documents is close to the theme of the train corpus, we propose to calculate the cosine similarity between documents of the corpus and the input document. We have empirically established the average value of the cosine similarity coefficient, in which the document can be attributed to the highly specialized documents containing criminal information.We evaluate our approach on the test corpus of articles from the news sites of Kharkiv. F-measure of the document classification with criminal information achieves 96 %.
Метод автоматичного визначення семантично близьких фрагментів новинних текстів
(Національний технічний університет "Харківський політехнічний інститут", 2019) Петрасова, Світлана Валентинівна; Галкіна, Яна Романівна; Мануйлов, Ілля Олександрович; Бородіна, Олександра Русланівна; Швець, Софія Ігорівна
Складність семантичного аналізу текстової інформації, що міститься в новинних повідомленнях, визначається багатозначністю і синонімічністю, які властиві мові на всіх рівнях її представлення, що, перш за все, впливає на визначення смислово ї близькості мовних одиниць. Виявлення семантично близьких фрагментів текстів або перефразувань є актуальною проблемою у таких наукових напрямках як семантичний пошук інформації, видобування інформації, машинний переклад, визначення порушень авторських прав і т.п. , крім того широко використовується при рерайтингу. У статті проаналізовано основні проблеми рерайтинга, зокрема перефразування синтаксичних одиниць тексту зі збереженням смислового навантаження. Розглянуто сучасні методи визначення семантичної близькості слів, вказано основні переваги та недоліки. Запропоновано метод автоматичного виявлення синонімічних фрагментів новинних текстів на основі використання WordNet та розроблених синтаксичних правил, які зберігають інформацію про граматичні характеристики слів. Перевагою даного методу є те, що аналізується як граматична структура мови, так і смисл слів. Досліджуваний корпус представлено новинними текстами інформаційного агентства Reuters, служб CNN і BBC World News. Запропонований метод ідентифікації семантично зв’язних фрагментів тексту дозволяє виявити спільний інформаційний простір актуальних новин та може використовуватися для ефективного визначення близьких за змістом текстів в інформаційно-пошукових, експертних, аналітичних інформаційних системах. Вирішення завдання автоматичного визначення семантичної близькості може застосовуватися при автоматизованій побудові онтологій по тексту, для розширення існуючих і створення нових тезаурусів.
Extraction of Semantic Relations from Wikipedia Text Corpus
(2019) Shanidze, O.; Petrasova, S. V.
This paper proposes the algorithm for automatic extraction of semantic relations using the rule-based approach. The authors suggest identifying certain verbs (predicates) between a subject and an object of expressions to obtain a sequence of semantic relations in the designed text corpus of Wikipedia articles. The synsets from WordNet are applied to extract semantic relations between concepts and their synonyms from the text corpus.
Method for Paraphrase Extraction from the News Text Corpus
(2019) Manuilov, Illia; Petrasova, S. V.
The paper discusses the process of automatic extraction of paraphrases used in rewriting. The researchers propose the method for extracting paraphrases from English news text corpora. The method is based on both the developed syntactic rules to define phrases and synsets to identify synonymous words in the designed text corpus of BBC news. In order to implement the method, Natural Language Toolkit, Universal Dependencies parser and WordNet are used.
Similar Text Fragments Extraction for Identifying Common Wikipedia Communities
(MDPI AG, Switzerland, 2018) Petrasova, S. V.; Khairova, N. F.; Lewoniewski, Włodzimierz; Mamyrbayev, Orken; Mukhsina, Kuralay
Similar text fragments extraction from weakly formalized data is the task of natural language processing and intelligent data analysis and is used for solving the problem of automatic identification of connected knowledge fields. In order to search such common communities in Wikipedia, we propose to use as an additional stage a logical-algebraic model for similar collocations extraction. With Stanford Part-Of-Speech tagger and Stanford Universal Dependencies parser, we identify the grammatical characteristics of collocation words. WithWordNet synsets, we choose their synonyms. Our dataset includes Wikipedia articles from different portals and projects. The experimental results show the frequencies of synonymous text fragments inWikipedia articles that form common information spaces. The number of highly frequented synonymous collocations can obtain an indication of key common up-to-date Wikipedia communities.
Ідентифікація смислових відношень у текстах вікіпедії для побудови семантичної мережі
(Національний технічний університет "Харківський політехнічний інститут", 2019) Петрасова, Світлана Валентинівна; Шанідзе, Олександр Дмитрович; Швець, С. І.

Кафедри

Переглянути

Фільтри

Налаштування

Сортувати за

Результатів на сторінку

Результати пошуку