Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику
Вантажиться...
Дата
ORCID
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Алматинский университет энергетики и связи им. Гумарбека Даукеева
Анотація
В настоящее время разработка высококачественных параллельных текстовых корпусов является одним из наиболее актуальных и передовых направлений современной лингвистики. Особое внимание уделяется созданию параллельных многоязычных корпусов для языков с низким уровнем ресурсов, таких как казахский язык. В ходе исследования мы исследовали тексты с четырех казахских двуязычных новостных сайтов и создали параллельный казахско-русский корпус текстов, в основе которых лежит криминальная тематика. Для выравнивания корпуса мы использовали набор лексических соответствий и значения POS-тегов обоих языков. 60% наших корпусных предложений автоматически выровнены правильно. Наконец, мы проанализировали факторы, влияющие на процент ошибок.
Currently, the development of high-quality parallel textual cases is one of the most relevant and advanced areas of modern linguistics. Particular attention is paid to the creation of parallel multilingual bodies for languages with a low level of resources, such as the Kazakh language. In the course of the study, we examined texts from four Kazakh bilingual news sites and created a parallel Kazakh-Russian corpus of texts based on criminal topics. To align the body, we used a set of lexical correspondences and the meaning of POS tags in both languages. 60% of our package offers are automatically aligned correctly. Finally, we analyzed the factors that influence the percentage of errors.
Currently, the development of high-quality parallel textual cases is one of the most relevant and advanced areas of modern linguistics. Particular attention is paid to the creation of parallel multilingual bodies for languages with a low level of resources, such as the Kazakh language. In the course of the study, we examined texts from four Kazakh bilingual news sites and created a parallel Kazakh-Russian corpus of texts based on criminal topics. To align the body, we used a set of lexical correspondences and the meaning of POS tags in both languages. 60% of our package offers are automatically aligned correctly. Finally, we analyzed the factors that influence the percentage of errors.
Опис
Бібліографічний опис
Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Н. Хайрова [и др.] // Алматы энергетика және байланыс университетінің хабаршысы = Вестник Алматинского университета энергетики и связи / гл. ред. В. В. Стояк ; Алмат. ун-т энергетики и связи им. Г. Даукеева. – Алматы, 2020. – № 1 (48). – С. 84-92.