Кафедри
Постійне посилання на розділhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/35393
Переглянути
3 результатів
Результати пошуку
Документ Методичні вказівки до виконання лабораторних робіт з курсу "Корпусна лінгвістика". Частина 2(ФОП Панов А. М., 2021) Хайрова, Ніна Феліксівна; Петрасова, Світлана Валентинівна; Оробінська, Олена ОлександрівнаПоняття корпусної лінгвістики виникло в 80-х роках минулого століття. В даний час під корпусною лінгвістикою розуміється розділ мовознавства, що займається розробкою, створенням і використанням текстових корпусів. Водночас корпусні лінгвістика є швидше не складовою частиною загальної лінгвістики, а являє собою методологію або способи використання конкретних ресурсів, що представляють великі обсяги текстових даних. Отже, корпус та спеціальні програмні засоби роботи з цим корпусом є спеціалізованим інструментом лінгвістичних досліджень. Таке спеціалізоване програмне забезпечення, що використовується для дослідження великих обсягів текстових даних, які зібрані у корпусі, називається concordancer. Традиційно в корпусній лінгвістиці можна виділити два напрями вивчення: створення корпусів і дослідження мовних закономірностей за допомогою корпусних методів на базі створених корпусів. Проте, нерідко розробники корпусів проводять одночасно і власні лінгвістичні дослідження. Таким чином корпусна лінгвістика передбачає одночасне використання лінгвістичних знань та знань комп’ютерних технологій, що і зумовлює використання даної дисципліни в навчальному плані студентів спеціальності "Прикладна та комп'ютерна лінгвістика". Дані методичні рекомендації спрямовані на отримання навичок роботи з усіма складовими корпусних завдань, а саме: створення власних корпусів, опанування різних видів корпусної розмітки, використання Інтернету для корпусних досліджень та вживання різних статистичних методів при роботі з корпусами. В другу частину Методичних вказівок до виконання лабораторних робіт з курсу "Корпусна лінгвістика" включено чотири лабораторні роботи, виконання яких дозволяє отримати навички роботи з системою семантичної розмітки USAS, аналізу корпусу в online середовищі CQPweb та обробки кластерів корпусів конкордансером AntConc.Документ Методичні вказівки до виконання лабораторних робіт з курсу "Корпусна лінгвістика". Частина 1(ФОП Панов А. М., 2021) Хайрова, Ніна Феліксівна; Петрасова, Світлана Валентинівна; Оробінська, Олена ОлександрівнаПоняття корпусної лінгвістики виникло в 80-х роках минулого століття. В даний час під корпусною лінгвістикою розуміється розділ мовознавства, що займається розробкою, створенням і використанням текстових корпусів. Водночас корпусні лінгвістика є швидше не складовою частиною загальної лінгвістики, а являє собою методологію або способи використання конкретних ресурсів, що представляють великі обсяги текстових даних. Отже, корпус та спеціальні програмні засоби роботи з цим корпусом є спеціалізованим інструментом лінгвістичних досліджень. Таке спеціалізоване програмне забезпечення, що використовується для дослідження великих обсягів текстових даних, які зібрані у корпусі, називається concordancer. Традиційно в корпусній лінгвістиці можна виділити два напрями вивчення: створення корпусів і дослідження мовних закономірностей за допомогою корпусних методів на базі створених корпусів. Проте, нерідко розробники корпусів проводять одночасно і власні лінгвістичні дослідження. Таким чином корпусна лінгвістика передбачає одночасне використання лінгвістичних знань та знань комп’ютерних технологій, що і зумовлює використання даної дисципліни в навчальному плані студентів спеціальності "Прикладна та комп'ютерна лінгвістика". Дані методичні рекомендації спрямовані на отримання навичок роботи з усіма складовими корпусних завдань, а саме: створення власних корпусів, опанування різних видів корпусної розмітки, використання Інтернету для корпусних досліджень та вживання різних статистичних методів при роботі з корпусами. В першу частину Методичних вказівок до виконання лабораторних робіт з курсу "Корпусна лінгвістика" включено три лабораторні роботи, виконання яких дозволяє отримати навички роботи з конкордансером AntConc та системою автоматичного POS-tagging CLAWS.Документ Технологія визначення інформаційного порядку денного в потоках новинних даних(Національний технічний університет "Харківський політехнічний інститут", 2021) Петрасова, Світлана Валентинівна; Хайрова, Ніна Феліксівна; Колесник, Анастасія СергіївнаЗ кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіко-лінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.