Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику
dc.contributor.author | Хайрова, Нина Феликсовна | ru |
dc.contributor.author | Колесник, А. С. | ru |
dc.contributor.author | Мамырбаев, Оркен Жумажанович | ru |
dc.contributor.author | Мусхина, Куралай Женисбековна | ru |
dc.date.accessioned | 2020-12-10T07:25:22Z | |
dc.date.available | 2020-12-10T07:25:22Z | |
dc.date.issued | 2020 | |
dc.description.abstract | В настоящее время разработка высококачественных параллельных текстовых корпусов является одним из наиболее актуальных и передовых направлений современной лингвистики. Особое внимание уделяется созданию параллельных многоязычных корпусов для языков с низким уровнем ресурсов, таких как казахский язык. В ходе исследования мы исследовали тексты с четырех казахских двуязычных новостных сайтов и создали параллельный казахско-русский корпус текстов, в основе которых лежит криминальная тематика. Для выравнивания корпуса мы использовали набор лексических соответствий и значения POS-тегов обоих языков. 60% наших корпусных предложений автоматически выровнены правильно. Наконец, мы проанализировали факторы, влияющие на процент ошибок. | ru |
dc.description.abstract | Currently, the development of high-quality parallel textual cases is one of the most relevant and advanced areas of modern linguistics. Particular attention is paid to the creation of parallel multilingual bodies for languages with a low level of resources, such as the Kazakh language. In the course of the study, we examined texts from four Kazakh bilingual news sites and created a parallel Kazakh-Russian corpus of texts based on criminal topics. To align the body, we used a set of lexical correspondences and the meaning of POS tags in both languages. 60% of our package offers are automatically aligned correctly. Finally, we analyzed the factors that influence the percentage of errors. | en |
dc.identifier.citation | Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Н. Хайрова [и др.] // Алматы энергетика және байланыс университетінің хабаршысы = Вестник Алматинского университета энергетики и связи / гл. ред. В. В. Стояк ; Алмат. ун-т энергетики и связи им. Г. Даукеева. – Алматы, 2020. – № 1 (48). – С. 84-92. | ru |
dc.identifier.uri | https://repository.kpi.kharkov.ua/handle/KhPI-Press/49737 | |
dc.language.iso | ru | |
dc.publisher | Алматинский университет энергетики и связи им. Гумарбека Даукеева | ru |
dc.subject | POS-тегирование | ru |
dc.subject | лексические соответствия | ru |
dc.subject | синтаксический анализ | ru |
dc.subject | компьютерная лингвистика | ru |
dc.subject | criminal topics | en |
dc.subject | POS-tagging | en |
dc.subject | Kazakh-Russian parallel corpus | en |
dc.subject | lexical correspondences | en |
dc.title | Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику | ru |
dc.title.alternative | Aligned Kazakh-Russian parallel corpus, focused on the crime theme | en |
dc.type | Article | en |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- vestnik_AUES_2020_1_Khairova_Vyrovnennyi.pdf
- Розмір:
- 595.69 KB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 11.25 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: