Автоматичне видобування колокацій з корпусу текстів
Дата
2018
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
НТУ "ХПІ"
Анотація
У статті розглядається метод автоматичного видобування колокацій з корпусів текстів української мови. Визначено поняття "колокація" з точки зору підходів до його аналізу у сучасній корпусній лінгвістиці. Проаналізовано статистичні методи та існуючі системи, що використовують статистичні міри для видобування колокацій. Описано структуру розробленого корпусу текстів, а також імплементацію статистичної міри МІ для виявлення колокацій з україномовних текстів, що складаються з інструкцій технічної документації.
The article deals with the method for automatic extraction of collocations from the text corpus of the Ukrainian language. Definitions of the term "collocation" have been considered from the viewpoint of approaches to its analysis in modern corpus linguistics. Existing statistical methods and systems that use statistical measures for extraction of collocations have been analyzed, and their features have been described. The corpus of technical documentation has been developed and its structure has been described. To extract collocations from the texts of the Ukrainian language that consist of the instructions of technical documentation, the developed software implementation of MI measure has been described.
The article deals with the method for automatic extraction of collocations from the text corpus of the Ukrainian language. Definitions of the term "collocation" have been considered from the viewpoint of approaches to its analysis in modern corpus linguistics. Existing statistical methods and systems that use statistical measures for extraction of collocations have been analyzed, and their features have been described. The corpus of technical documentation has been developed and its structure has been described. To extract collocations from the texts of the Ukrainian language that consist of the instructions of technical documentation, the developed software implementation of MI measure has been described.
Опис
Ключові слова
корпусна лінгвістика, статистичні методи, міра MI, технічна документація, corpus linguistics, statistical methods, MI measure
Бібліографічний опис
Петрасова С. B. Автоматичне видобування колокацій з корпусу текстів / С. B. Петрасова, М. О. Кузьміна // Вісник Національного технічного університету "ХПІ". Серія: Актуальні проблеми розвитку українського суспільства = Bulletin of the National Technical University "KhPI". Series: Actual problems of Ukrainian society development : зб. наук. пр. – Харків : НТУ "ХПІ", 2018. – № 4 (1280). – С. 68-72.