Идентификация смысловой близости фрагментов текстов наукометрических баз

Вантажиться...
Ескіз

Дата

2018

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

ITHEA, Bulgaria

Анотація

Сложность анализа текстовой информации, содержащейся в наукометрических системам, определяется многозначностью и синонимичностью, которые свойственны языку на всех уровнях его представления, что, прежде всего, влияет на определение смыслового единства языковых единиц. При этом решение задачи усложняется, если речь идет о смысловой близости крупных информационных фрагментов. Поэтому в связи со стремительным ростом объемов информационных ресурсов в наукометрических системах и существующими подходами и методами анализа слабоформализованных данных становятся перспективными задачи обработки текстовой информации на базе интеллектуального анализа. В работе рассматривается информационная технология идентификации смысловой близости фрагментов текстов наукометрических систем. Предложенная технология позволяет определять общие информационные пространства научного взаимодействия авторов за счет идентификации семантически эквивалентных коллокаций в текстах. Технология включает модель формального описания семантико-грамматических характеристик слов атрибутивных, глагольных и субстантивных коллокаций и определение предиката семантической эквивалентности двухсловных коллокаций на основе уравнений алгебры конечных предикатов. Программная имплементация модели представляет собой веб-приложение, определяющее семантически близкие текстовые фрагменты статей, индексируемых в наукометрических базах Google Scholar и Science Direct. В результате определяется эвристическая оценка эффективности разработанной технологии для каждого типа коллокаций.
This paper considers the information technology for identification of semantic similarity of text fragments in scientometric systems. The proposed technology allows determining common information spaces of authors’ scientific interaction due to identification of semantic equivalence of collocations in texts. The technology includes a model for a formal description of the semantic and grammatical characteristics of words in attributive, verbal and substantive collocations and identification of the semantic equivalence predicate for two-word collocations based on the algebra of finite predicates. The developed software implementation is a web application that defines semantically connected text fragments of articles indexed in Google Scholar and Science Direct. As a result, an effectiveness estimate of the developed technology for each type of collocations is determined.

Опис

Ключові слова

наукометрические базы, семантическая близость, информационное пространство, синонимия коллокаций, алгебра конечных предикатов, scientometric bases, semantic similarity, information space, collocation synonymy, algebra of finite predicates

Бібліографічний опис

Петрасова С. Идентификация смысловой близости фрагментов текстов наукометрических баз / С. Петрасова, Н. Хайрова, В. Киселева // Information Technologies and Knowledge. – 2018. – Vol. 12, № 1. – P. 32-42.