Research on the specific features of determining the semantic similarity of arbitrary-length text content using multilingual Transformer-based models

The possibilities of determining the semantic similarity of multilingual arbitrary-length text content have been investigated using their vector representations obtained within different multilingual models based on Transformer architecture. A comparative analysis of the Transformers has been performed to select the post advantageous model for this class of problems. Also, two new unique approaches to determining the semantic similarity of a multilingual text content have been developed to be used in the HIPSTO Open AI Information Discovery Platform, the challenge being to allow arbitrary text length. Experimental and research evidence is offered to support the new approaches as a solution to the semantic similarity problem.
В роботі досліджені можливості визначення семантичної подібності багатомовного текстового контенту довільної довжини на основі їх векторних уявлень, отриманих з використанням різних багатомовних моделей на основі архітектури Transformer. Проведено порівняльний аналіз моделей Transformer для вибору найбільш ефективної моделі для вирішення даного класу задач. Запропоновано два нових унікальних підходи до визначення семантичної подібності багатомовного текстового контенту для використання в платформі HIPSTO Open AI Information Discovery з подоланням проблеми використання тексту довільної довжини. Аналізуються експериментальні дані, отримані при реалізації нових підходів для вирішення завдання семантичного подібності текстового контенту довільної довжини.

Ключові слова

Natural Language Processing, BERT, semantic similarities, news content, обробка природної мови, BERT, семантична подібність, новинний конвент

Бібліографічний опис

Olizarenko S. Research on the specific features of determining the semantic similarity of arbitrary-length text content using multilingual Transformer-based models / S. Olizarenko, V. Argunov // Сучасні інформаційні системи = Advanced Information Systems. – 2020. – Т. 4, № 3. – С. 94-103.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/48571

Колекції

Кафедра "Комп'ютерна інженерія та програмування"

Повна інформація про документ
Google Scholar

Research on the specific features of determining the semantic similarity of arbitrary-length text content using multilingual Transformer-based models

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в