Research on the specific features of determining the semantic similarity of arbitrary-length text content using multilingual Transformer-based models

dc.contributor.authorOlizarenko, Serhiien
dc.contributor.authorArgunov, Vladimiren
dc.date.accessioned2020-10-08T07:54:56Z
dc.date.available2020-10-08T07:54:56Z
dc.date.issued2020
dc.description.abstractThe possibilities of determining the semantic similarity of multilingual arbitrary-length text content have been investigated using their vector representations obtained within different multilingual models based on Transformer architecture. A comparative analysis of the Transformers has been performed to select the post advantageous model for this class of problems. Also, two new unique approaches to determining the semantic similarity of a multilingual text content have been developed to be used in the HIPSTO Open AI Information Discovery Platform, the challenge being to allow arbitrary text length. Experimental and research evidence is offered to support the new approaches as a solution to the semantic similarity problem.en
dc.description.abstractВ роботі досліджені можливості визначення семантичної подібності багатомовного текстового контенту довільної довжини на основі їх векторних уявлень, отриманих з використанням різних багатомовних моделей на основі архітектури Transformer. Проведено порівняльний аналіз моделей Transformer для вибору найбільш ефективної моделі для вирішення даного класу задач. Запропоновано два нових унікальних підходи до визначення семантичної подібності багатомовного текстового контенту для використання в платформі HIPSTO Open AI Information Discovery з подоланням проблеми використання тексту довільної довжини. Аналізуються експериментальні дані, отримані при реалізації нових підходів для вирішення завдання семантичного подібності текстового контенту довільної довжини.uk
dc.identifier.citationOlizarenko S. Research on the specific features of determining the semantic similarity of arbitrary-length text content using multilingual Transformer-based models / S. Olizarenko, V. Argunov // Сучасні інформаційні системи = Advanced Information Systems. – 2020. – Т. 4, № 3. – С. 94-103.en
dc.identifier.doihttps://doi.org/10.20998/2522-9052.2020.3.13
dc.identifier.orcidhttps://orcid.org/0000-0002-7762-6541
dc.identifier.orcidhttps://orcid.org/0000-0002-2505-1969
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/48571
dc.language.isoen
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"uk
dc.subjectNatural Language Processingen
dc.subjectBERTen
dc.subjectsemantic similaritiesen
dc.subjectnews contenten
dc.subjectобробка природної мовиuk
dc.subjectBERTuk
dc.subjectсемантична подібністьuk
dc.subjectновинний конвентuk
dc.titleResearch on the specific features of determining the semantic similarity of arbitrary-length text content using multilingual Transformer-based modelsen
dc.title.alternativeДослідження особливостей визначення семантичної подібності текстового контенту довільної довжини з використанням багатомовних моделей на основі Transformeruk
dc.typeArticleen

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
AIS_2020_4_3_Olizarenko_Research.pdf
Розмір:
1016.4 KB
Формат:
Adobe Portable Document Format
Опис:

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
11.25 KB
Формат:
Item-specific license agreed upon to submission
Опис: