Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику

Вантажиться...
Ескіз

Дата

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Алматинский университет энергетики и связи им. Гумарбека Даукеева

Анотація

В настоящее время разработка высококачественных параллельных текстовых корпусов является одним из наиболее актуальных и передовых направлений современной лингвистики. Особое внимание уделяется созданию параллельных многоязычных корпусов для языков с низким уровнем ресурсов, таких как казахский язык. В ходе исследования мы исследовали тексты с четырех казахских двуязычных новостных сайтов и создали параллельный казахско-русский корпус текстов, в основе которых лежит криминальная тематика. Для выравнивания корпуса мы использовали набор лексических соответствий и значения POS-тегов обоих языков. 60% наших корпусных предложений автоматически выровнены правильно. Наконец, мы проанализировали факторы, влияющие на процент ошибок.
Currently, the development of high-quality parallel textual cases is one of the most relevant and advanced areas of modern linguistics. Particular attention is paid to the creation of parallel multilingual bodies for languages with a low level of resources, such as the Kazakh language. In the course of the study, we examined texts from four Kazakh bilingual news sites and created a parallel Kazakh-Russian corpus of texts based on criminal topics. To align the body, we used a set of lexical correspondences and the meaning of POS tags in both languages. 60% of our package offers are automatically aligned correctly. Finally, we analyzed the factors that influence the percentage of errors.

Опис

Ключові слова

POS-тегирование, лексические соответствия, синтаксический анализ, компьютерная лингвистика, criminal topics, POS-tagging, Kazakh-Russian parallel corpus, lexical correspondences

Бібліографічний опис

Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Н. Хайрова [и др.] // Алматы энергетика және байланыс университетінің хабаршысы = Вестник Алматинского университета энергетики и связи / гл. ред. В. В. Стояк ; Алмат. ун-т энергетики и связи им. Г. Даукеева. – Алматы, 2020. – № 1 (48). – С. 84-92.

Підтвердження

Рецензія

Додано до

Згадується в