Особливості морфологічної розмітки корпусів української мови на прикладі технічної документації

Вантажиться...
Ескіз

Дата

2017

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

НТУ "ХПІ"

Анотація

У статті розглядаються особливості автоматичної морфологічної розмітки корпусів текстів української мови. Створено корпус текстів української мови, які представляють інструкції технічної документації. Розроблено систему тегів для формалізації морфологічної інформації. Описано розроблену програмну реалізацію запропонованого методу автоматичної морфологічної розмітки, що дозволяє отримувати з корпусу технічної документації приклади вживання в мові як конкретних словоформ, так і слів у всіх їх граматичних формах.
The article deals with the features of tagging Ukrainian corpora. Representing instructions for technical documentation, the corpus of Ukrainian texts is created. The main principles and means of morphology in the Ukrainian language are determined for further tagging. The system of tags is developed to formalize morphological information. Based on the procedural method of morphological analysis, the algorithm for tagging nouns in the Ukrainian language is described. The implementation of the proposed method of automatic tagging is developed. This result allows receiving examples of the use of both specific word forms and words in all their grammatical forms from the technical documentation corpus.

Опис

Ключові слова

текст, тегсет, морфологія, tagging, tagset

Бібліографічний опис

Петрасова С. В. Особливості морфологічної розмітки корпусів української мови на прикладі технічної документації / С. В. Петрасова, М. О. Кузьміна, І. О. Мануйлов // Вісник Нац. техн. ун-ту "ХПІ" : зб. наук. пр. Сер. : Актуальні проблеми розвитку українського суспільства. – Харків : НТУ "ХПІ", 2017. – № 52 (1273). – С. 114-117.