International system of knowledge exchange for young scientists

Вантажиться...
Ескіз

Дата

2021

DOI

doi.org/10.20998/2522-9052.2021.1.09

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

The paper proposes a system which is electronic data storage (of qualification works of students from different countries) and provides the capability to identify and connect young scientists conducting research on a related problem area. The purpose of developing this system is to provide opportunities for knowledge exchange, research in a team on a common problem, as well as to identify scientific trends in different countries. In this paper, the preprocessing methods influence on the work of classifiers such as Logistic Regression, LSTM, BERT, LightGBM was researched. A study was conducted on the speed of classification and F1 assessment. Conclusions. Lemmatization showed to require a shorter oper ating time compared to steaming by almost twice and a better score by an average of 5 percent, so it was decided to use the Logistic Regression classifier with lemmatization at the stage of text preparation in the subsequent operation of the proposed ISKE.
У роботі запропонована система, яка являє електронне сховище даних (кваліфікаційних робіт студентів із різних країн) та забезпечує можливість виявити та зв’язати між собою молодих вчених, що ведуть дослідження над єдиною проблемною областю. Метою розробки даної системи є забезпечення можливості обміну знаннями, виконання досліджень у команді над спільною проблемою, а також визначення наукових тенденцій у різних країнах світу. У роботі досліджено вплив методів препроцесінгу на роботу таких класифікаторів, як Logistic Regression, LSTM, BERT, LightGBM. Проведено дослідження щодо швидкості класифікації та F1 оцінки. Висновки. Лематизація показала коротший час роботи у порівнянні зі стемінгом майже в два рази та кращу оцінку в середньому на 5 відсотків, тому було прийнято рішення використовувати класифікатор Logistic Regression із лематизацією на етапі підготовки тексту у подальшій роботі запропонованої системи обміну знаннями молодих науковців.

Опис

Ключові слова

classification, preprocessing, lemmatization, stemming, класифікація, попередня обробка, лематизація, стемінг

Бібліографічний опис

International system of knowledge exchange for young scientists / O. Barkovska [et al.] // Сучасні інформаційні системи = Advanced Information Systems. – 2021. – Т. 5, № 1. – С. 69-74.