Особливості морфологічної розмітки корпусів української мови на прикладі технічної документації
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
У статті розглядаються особливості автоматичної морфологічної розмітки корпусів текстів української мови. Створено корпус текстів української мови, які представляють інструкції технічної документації. Розроблено систему тегів для формалізації морфологічної інформації. Описано розроблену програмну реалізацію запропонованого методу автоматичної морфологічної розмітки, що дозволяє отримувати з корпусу технічної документації приклади вживання в мові як конкретних словоформ, так і слів у всіх їх граматичних формах.
The article deals with the features of tagging Ukrainian corpora. Representing instructions for technical documentation, the corpus of Ukrainian texts is created. The main principles and means of morphology in the Ukrainian language are determined for further tagging. The system of tags is developed to formalize morphological information. Based on the procedural method of morphological analysis, the algorithm for tagging nouns in the Ukrainian language is described. The implementation of the proposed method of automatic tagging is developed. This result allows receiving examples of the use of both specific word forms and words in all their grammatical forms from the technical documentation corpus.
The article deals with the features of tagging Ukrainian corpora. Representing instructions for technical documentation, the corpus of Ukrainian texts is created. The main principles and means of morphology in the Ukrainian language are determined for further tagging. The system of tags is developed to formalize morphological information. Based on the procedural method of morphological analysis, the algorithm for tagging nouns in the Ukrainian language is described. The implementation of the proposed method of automatic tagging is developed. This result allows receiving examples of the use of both specific word forms and words in all their grammatical forms from the technical documentation corpus.
Ключові слова
текст, тегсет, морфологія, tagging, tagset
Бібліографічний опис
Петрасова С. В. Особливості морфологічної розмітки корпусів української мови на прикладі технічної документації / С. В. Петрасова, М. О. Кузьміна, І. О. Мануйлов // Вісник Нац. техн. ун-ту "ХПІ" : зб. наук. пр. Сер. : Актуальні проблеми розвитку українського суспільства. – Харків : НТУ "ХПІ", 2017. – № 52 (1273). – С. 114-117.