Автоматичне видобування колокацій з корпусу текстів

Вантажиться...
Ескіз

Дата

2018

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

НТУ "ХПІ"

Анотація

У статті розглядається метод автоматичного видобування колокацій з корпусів текстів української мови. Визначено поняття "колокація" з точки зору підходів до його аналізу у сучасній корпусній лінгвістиці. Проаналізовано статистичні методи та існуючі системи, що використовують статистичні міри для видобування колокацій. Описано структуру розробленого корпусу текстів, а також імплементацію статистичної міри МІ для виявлення колокацій з україномовних текстів, що складаються з інструкцій технічної документації.
The article deals with the method for automatic extraction of collocations from the text corpus of the Ukrainian language. Definitions of the term "collocation" have been considered from the viewpoint of approaches to its analysis in modern corpus linguistics. Existing statistical methods and systems that use statistical measures for extraction of collocations have been analyzed, and their features have been described. The corpus of technical documentation has been developed and its structure has been described. To extract collocations from the texts of the Ukrainian language that consist of the instructions of technical documentation, the developed software implementation of MI measure has been described.

Опис

Ключові слова

корпусна лінгвістика, статистичні методи, міра MI, технічна документація, corpus linguistics, statistical methods, MI measure

Бібліографічний опис

Петрасова С. B. Автоматичне видобування колокацій з корпусу текстів / С. B. Петрасова, М. О. Кузьміна // Вісник Національного технічного університету "ХПІ". Серія: Актуальні проблеми розвитку українського суспільства = Bulletin of the National Technical University "KhPI". Series: Actual problems of Ukrainian society development : зб. наук. пр. – Харків : НТУ "ХПІ", 2018. – № 4 (1280). – С. 68-72.