122 "Комп'ютерні науки"
Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47370
Переглянути
Публікація Методи та інформаційна технологія інформетрії в академічному інформаційному середовищі(Національний технічний університет "Харківський політехнічний інститут", 2020) Главчева, Юлія МиколаївнаДисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 122 – Комп'ютерні науки – Національний технічний університет "Харківський політехнічний інститут", Харків, 2020. Об'єктом дослідження є процес оцінювання наукової діяльності. Предметом дослідження є моделі, методи та інформаційна технологія підвищення якості процесу оцінки наукової діяльності. У вступі обґрунтовано актуальність досліджуваної теми. Описано зв'язок роботи з науковими програмами, планами та темами, наведено наукову новизну, а також, сформульовано практичне значення отриманих результатів. В першому розділі здійснено аналітичний огляд підходів до реалізації процесу оцінки наукової діяльності. Виконано аналіз інформаційно-аналітичних пошукових систем, виділено авторитетні джерела наукометричних даних, проаналізовано основні наукометричні показники та метрики, які застосовуються на практиці. Визначено складові наукометричних систем та фактори, які впливають на їх якість. Під оцінкою наукової діяльності розуміємо дослідження якості наукового процесу, а саме якісного проведення усіх етапів наукової роботи, у тому числі якості наукових публікацій. Якість та оригінальність наукового дослідження може бути забезпечено унеможливленням академічного шахрайства, тобто виявленням потенційного академічного плагіату. Оригінальним текстом є текст, який створений автором самостійно, у якому всі використані текстові запозичення мають посилання на першоджерело. Тому дослідження включає завдання зі створення інформаційної технології визначення авторського стилю для ідентифікації автора та методу виділення авторської ідеї, пошук документів, ідеї в яких є семантично подібні. На основі аналізу складових процесу оцінки наукової діяльності сформовано основні напрямки досліджень та визначено основні задачі дисертаційної роботи. В другому розділі розглянуто питання та описана розроблена інформаційна технологія визначення авторського стилю в академічних текстах українською та російською мовами. Дослідниками світу виділяються різні групи стилометричних властивостей. Але не всі властивості однаково ефективні для будь-якої мови та будь-яких текстів. У роботі групу стилометричних властивостей було застосовано до академічних текстів українською та російською мовами. Сформовано модель представлення тексту у вигляді стилометричних наборів ознак. На базі цієї моделі виділено стилометричні властивості, за допомогою яких можлива ідентифікація автора тексту. Запропоновано використання методів контекстного моделювання та машинного навчання для проведення класифікації текстів на базі стилометричних властивостей за визначеними класами (за авторами). В третьому розділі розглянуто питання визначення авторської ідеї академічного тексту українською мовою для визначення замаскованого інтелектуального академічного плагіату. Адаптовано графовий метод (TextRank) до особливостей наукового тексту для вилучення основної ідеї тексту, тобто формування реферату. Розроблено метод визначення авторської ідеї на основі аналізу анафоричних зв'язків та адаптованого методу TextRank. Для опису семантичних зв’язків між реченнями використано апарат алгебри скінченних предикатів та предикатних операцій, метод компараторної ідентифікації, побудовано логічну мережу. Четвертий розділ присвячено розгляду методів побудови рейтингів академічних установ. Розглянуто методи оцінювання наукової діяльності академічних установ, та чинники, що впливають на якість результату. Досліджено особливості публікаційної поведінки авторів. Визначено, що пріоритетне використання даних з публікаційної активності може призводити до маніпулювання цими даними. Проведено аналіз характеристик переліку використаних джерел. Розроблено метод до визначення якості переліку використаних джерел, як одного з якісних характеристик наукового документу. Аналіз національного рейтингу академічних установ Scopus показав певні недоліки. Запропоновано методику ранжування академічних установ з використанням даних наукометричних систем Scopus та Web of Science СС, яка враховує особливості оцінюваних об'єктів та обмеження бібліометричних методів. У п'ятому розділі виконано практичну реалізацію запропонованих інформаційної технології та методів. Показано використання коефіцієнтів різноманітності та статистичних параметрів тексту, лексичні та символьні властивості для ідентифікації авторського стилю написання тексту українською та російською мовами. Застосовано метод контекстного моделювання Prediction by Partial Matching та методи машинного навчання Naive Bayes, Naive Bayes Multinomial, Support Vector Machine, Decision Trees для вирішення задачі класифікації, а саме за визначеними авторів. Апробовано використання розробленого методу з виділення основної ідеї тексту. Таким чином, у дисертаційній роботі вирішується науково-прикладна задача з забезпечення підвищення якості процесу оцінки наукової діяльності. Її рішення реалізується шляхом розробки інформаційної технології, методів, методики та програмних додатків, що створюють передумови для підвищення якості результатів оцінки наукової діяльності за рахунок сприяння академічній доброчесності у академічному середовищі шляхом використання програмних засобів, забезпечення достовірності наукометричних показників та справедливих підходів при ранжуванні оцінюваних об'єктів. В роботі вперше отримано такі результати: вперше розроблено метод ідентифікації авторської ідеї академічного тексту, на основі інтелектуального аналізу даних, який відрізняється від існуючих новизною, та дозволяє визначити ознаки прихованого (інтелектуального) академічного плагіату в наукових роботах; вперше розроблено метод оцінки якості переліку використаних джерел, як одного з критеріїв оцінки якості статті, що дозволило акцентувати увагу рецензента та запобігти можливій маніпулятивній поведінці авторів. Отримала подальший розвиток інформаційна технологія визначення авторського стилю україномовних та російськомовних одноосібних академічних публікацій. Ця технологія заснована на методах машинного навчання і лінгвістичних технологіях, що дозволило створити єдину технологію визначення авторства. Удосконалено методику формування рейтингу академічних установ на основі показників інформетрії, яка враховує особливості досліджуваних об'єктів та обмеження бібліометричних методів. Дисертація є частиною науково-дослідних робіт, виконаних на кафедрі Інтелектуальних комп’ютерних систем "Розробка моделей та методів ідентифікації процесів екстракції знань у слабоструктурованих масивах інформації" (2017/2018 р., № ДР 0117U004726). Розроблені інформаційна технологія, методи, методика та програмний додаток впроваджені: − в ТОВ "Видавнича служба УРАН" Асоціації користувачів Української науково-освітньої телекомунікаційної мережі "УРАН" реалізується метод ідентифікації авторської ідеї академічного тексту, на основі інтелектуального аналізу даних; − в процес обробки текстових даних при вирішенні практичних завдань "Фірми SOLTI" упроваджено інформаційну технологію обробки природньої мови та визначення письмового стилю для ідентифікації автора; − в роботу Наукової бібліотеки Національного юридичного університету ім. Ярослава Мудрого; − у науково-технічній бібліотеці Національного технічного університету "Харківський політехнічний інститут" з метою забезпечення професійного виконання наукометричної експертної оцінки та задля якісного та швидкого задоволення методичних та інформаційних потреб користувачів; − в навчальний процес кафедри інформаційних ресурсів та комунікацій освітньої установи Білоруського державного університету культури та мистецтв (м. Мінськ, Білорусь); − в навчальний процес кафедри інтелектуальних комп'ютерних систем факультету соціально-гуманітарних технологій Національного технічного університету "Харківський політехнічний інститут" (м. Харків, Україна).