Особливості морфологічної розмітки корпусів української мови на прикладі технічної документації
Дата
2017
ORCID
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
НТУ "ХПІ"
Анотація
У статті розглядаються особливості автоматичної морфологічної розмітки корпусів текстів української мови. Створено корпус текстів української мови, які представляють інструкції технічної документації. Розроблено систему тегів для формалізації морфологічної інформації. Описано розроблену програмну реалізацію запропонованого методу автоматичної морфологічної розмітки, що дозволяє отримувати з корпусу технічної документації приклади вживання в мові як конкретних словоформ, так і слів у всіх їх граматичних формах.
The article deals with the features of tagging Ukrainian corpora. Representing instructions for technical documentation, the corpus of Ukrainian texts is created. The main principles and means of morphology in the Ukrainian language are determined for further tagging. The system of tags is developed to formalize morphological information. Based on the procedural method of morphological analysis, the algorithm for tagging nouns in the Ukrainian language is described. The implementation of the proposed method of automatic tagging is developed. This result allows receiving examples of the use of both specific word forms and words in all their grammatical forms from the technical documentation corpus.
The article deals with the features of tagging Ukrainian corpora. Representing instructions for technical documentation, the corpus of Ukrainian texts is created. The main principles and means of morphology in the Ukrainian language are determined for further tagging. The system of tags is developed to formalize morphological information. Based on the procedural method of morphological analysis, the algorithm for tagging nouns in the Ukrainian language is described. The implementation of the proposed method of automatic tagging is developed. This result allows receiving examples of the use of both specific word forms and words in all their grammatical forms from the technical documentation corpus.
Опис
Ключові слова
текст, тегсет, морфологія, tagging, tagset
Бібліографічний опис
Петрасова С. В. Особливості морфологічної розмітки корпусів української мови на прикладі технічної документації / С. В. Петрасова, М. О. Кузьміна, І. О. Мануйлов // Вісник Нац. техн. ун-ту "ХПІ" : зб. наук. пр. Сер. : Актуальні проблеми розвитку українського суспільства. – Харків : НТУ "ХПІ", 2017. – № 52 (1273). – С. 114-117.