Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента

Ескіз

Дата

2018

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Казахстанско-Британский технический университет

Анотація

В работе рассматриваются виды криминально окрашенной текстовой информации Web-контента (киберпреступность, террористический акт или финансовое мошенничество) и анализируются существующие технологии лингвистического анализа, позволяющие выявлять противоправную информацию в текстах. Проводится аналитический обзор использования существующих инструментов обработки языка, позволяющий выявить проблемы использования традиционных подходов NLP для анализа криминально значимой текстовой информации. Предлагаемый метод базируется на подходах Information Extraction и фокусируется на методе извлечения фактов из cлабоструктурированных текстов. Рассматривается использование технологии, базирующейся на описании семантических функций средствами алгебры конечных предикатов, для извлечения слабоструктурированных фактов из предложений русского и английского языков. Анализируется возможность использования предложенной технологии для текстов казахского языка.
The paper deals with types of criminally colored textual information of Web content (cybercrime, terrorist act or financial fraud) and analyzes existing technologies of linguistic analysis that allow to identify illegal information in texts. An analytical review of the use of existing language processing tools is conducted, which allows to identify problems of using traditional NLP approaches for the analysis of criminal-significant textual information. The proposed approach is based on the approaches of Information Extraction and focuses on the method of extracting facts from weakly structured texts. The use of technology based on the description of semantic functions by means of algebra of finite predicates is considered, to extract weakly structured facts from sentences of Russian and English. The possibility of using the proposed technology for the analysis of the Kazakh language texts is analyzed.

Опис

Ключові слова

терроризм, мошенничество, киберпреступность, алгебра конечных предикатов, семантические функции, Natural Language Processing, Facts Extraction, terrorism, fraud, cybercrime, algebra of finite predicates, semantic functions

Бібліографічний опис

Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента / О. Ж. Мамырбаев [и др.] // Вестник Казахстанско-Британского университета = Herald of the Kazakh - British Technical University : сб. науч. тр. / гл. ред. К. Н. Ибрашев ; Казах.-Брит. техн. ун-т. – Алматы : КБТУ, 2018. – Т. 15, № 3 (46). – С. 112-117.

Підтвердження

Рецензія

Додано до

Згадується в