Публікація: Методи та інформаційна технологія інформетрії в академічному інформаційному середовищі
Дата
2020
Автори
Назва видання
ISSN
Назва тому
Видання
Національний технічний університет "Харківський політехнічний інститут"
Анотація
Дисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 122 – Комп'ютерні науки – Національний технічний університет "Харківський політехнічний інститут", Харків, 2020. Об'єктом дослідження є процес оцінювання наукової діяльності. Предметом дослідження є моделі, методи та інформаційна технологія підвищення якості процесу оцінки наукової діяльності. У вступі обґрунтовано актуальність досліджуваної теми. Описано зв'язок роботи з науковими програмами, планами та темами, наведено наукову новизну, а також, сформульовано практичне значення отриманих результатів. В першому розділі здійснено аналітичний огляд підходів до реалізації процесу оцінки наукової діяльності. Виконано аналіз інформаційно-аналітичних пошукових систем, виділено авторитетні джерела наукометричних даних, проаналізовано основні наукометричні показники та метрики, які застосовуються на практиці. Визначено складові наукометричних систем та фактори, які впливають на їх якість. Під оцінкою наукової діяльності розуміємо дослідження якості наукового процесу, а саме якісного проведення усіх етапів наукової роботи, у тому числі якості наукових публікацій. Якість та оригінальність наукового дослідження може бути забезпечено унеможливленням академічного шахрайства, тобто виявленням потенційного академічного плагіату. Оригінальним текстом є текст, який створений автором самостійно, у якому всі використані текстові запозичення мають посилання на першоджерело. Тому дослідження включає завдання зі створення інформаційної технології визначення авторського стилю для ідентифікації автора та методу виділення авторської ідеї, пошук документів, ідеї в яких є семантично подібні. На основі аналізу складових процесу оцінки наукової діяльності сформовано основні напрямки досліджень та визначено основні задачі дисертаційної роботи. В другому розділі розглянуто питання та описана розроблена інформаційна технологія визначення авторського стилю в академічних текстах українською та російською мовами. Дослідниками світу виділяються різні групи стилометричних властивостей. Але не всі властивості однаково ефективні для будь-якої мови та будь-яких текстів. У роботі групу стилометричних властивостей було застосовано до академічних текстів українською та російською мовами. Сформовано модель представлення тексту у вигляді стилометричних наборів ознак. На базі цієї моделі виділено стилометричні властивості, за допомогою яких можлива ідентифікація автора тексту. Запропоновано використання методів контекстного моделювання та машинного навчання для проведення класифікації текстів на базі стилометричних властивостей за визначеними класами (за авторами). В третьому розділі розглянуто питання визначення авторської ідеї академічного тексту українською мовою для визначення замаскованого інтелектуального академічного плагіату. Адаптовано графовий метод (TextRank) до особливостей наукового тексту для вилучення основної ідеї тексту, тобто формування реферату. Розроблено метод визначення авторської ідеї на основі аналізу анафоричних зв'язків та адаптованого методу TextRank. Для опису семантичних зв’язків між реченнями використано апарат алгебри скінченних предикатів та предикатних операцій, метод компараторної ідентифікації, побудовано логічну мережу. Четвертий розділ присвячено розгляду методів побудови рейтингів академічних установ. Розглянуто методи оцінювання наукової діяльності академічних установ, та чинники, що впливають на якість результату. Досліджено особливості публікаційної поведінки авторів. Визначено, що пріоритетне використання даних з публікаційної активності може призводити до маніпулювання цими даними. Проведено аналіз характеристик переліку використаних джерел. Розроблено метод до визначення якості переліку використаних джерел, як одного з якісних характеристик наукового документу. Аналіз національного рейтингу академічних установ Scopus показав певні недоліки. Запропоновано методику ранжування академічних установ з використанням даних наукометричних систем Scopus та Web of Science СС, яка враховує особливості оцінюваних об'єктів та обмеження бібліометричних методів. У п'ятому розділі виконано практичну реалізацію запропонованих інформаційної технології та методів. Показано використання коефіцієнтів різноманітності та статистичних параметрів тексту, лексичні та символьні властивості для ідентифікації авторського стилю написання тексту українською та російською мовами. Застосовано метод контекстного моделювання Prediction by Partial Matching та методи машинного навчання Naive Bayes, Naive Bayes Multinomial, Support Vector Machine, Decision Trees для вирішення задачі класифікації, а саме за визначеними авторів. Апробовано використання розробленого методу з виділення основної ідеї тексту. Таким чином, у дисертаційній роботі вирішується науково-прикладна задача з забезпечення підвищення якості процесу оцінки наукової діяльності. Її рішення реалізується шляхом розробки інформаційної технології, методів, методики та програмних додатків, що створюють передумови для підвищення якості результатів оцінки наукової діяльності за рахунок сприяння академічній доброчесності у академічному середовищі шляхом використання програмних засобів, забезпечення достовірності наукометричних показників та справедливих підходів при ранжуванні оцінюваних об'єктів. В роботі вперше отримано такі результати: вперше розроблено метод ідентифікації авторської ідеї академічного тексту, на основі інтелектуального аналізу даних, який відрізняється від існуючих новизною, та дозволяє визначити ознаки прихованого (інтелектуального) академічного плагіату в наукових роботах; вперше розроблено метод оцінки якості переліку використаних джерел, як одного з критеріїв оцінки якості статті, що дозволило акцентувати увагу рецензента та запобігти можливій маніпулятивній поведінці авторів. Отримала подальший розвиток інформаційна технологія визначення авторського стилю україномовних та російськомовних одноосібних академічних публікацій. Ця технологія заснована на методах машинного навчання і лінгвістичних технологіях, що дозволило створити єдину технологію визначення авторства. Удосконалено методику формування рейтингу академічних установ на основі показників інформетрії, яка враховує особливості досліджуваних об'єктів та обмеження бібліометричних методів. Дисертація є частиною науково-дослідних робіт, виконаних на кафедрі Інтелектуальних комп’ютерних систем "Розробка моделей та методів ідентифікації процесів екстракції знань у слабоструктурованих масивах інформації" (2017/2018 р., № ДР 0117U004726). Розроблені інформаційна технологія, методи, методика та програмний додаток впроваджені: − в ТОВ "Видавнича служба УРАН" Асоціації користувачів Української науково-освітньої телекомунікаційної мережі "УРАН" реалізується метод ідентифікації авторської ідеї академічного тексту, на основі інтелектуального аналізу даних; − в процес обробки текстових даних при вирішенні практичних завдань "Фірми SOLTI" упроваджено інформаційну технологію обробки природньої мови та визначення письмового стилю для ідентифікації автора; − в роботу Наукової бібліотеки Національного юридичного університету ім. Ярослава Мудрого; − у науково-технічній бібліотеці Національного технічного університету "Харківський політехнічний інститут" з метою забезпечення професійного виконання наукометричної експертної оцінки та задля якісного та швидкого задоволення методичних та інформаційних потреб користувачів; − в навчальний процес кафедри інформаційних ресурсів та комунікацій освітньої установи Білоруського державного університету культури та мистецтв (м. Мінськ, Білорусь); − в навчальний процес кафедри інтелектуальних комп'ютерних систем факультету соціально-гуманітарних технологій Національного технічного університету "Харківський політехнічний інститут" (м. Харків, Україна).
The thesis is submitted to obtain a scientific degree of Doctor of Philosophy, specialty 122 – Computer Sciense – National Technical University "Kharkiv Polytechnic Institute", Kharkiv, 2020. The object of the research is the processes of scientific activity evaluation. The subject of research are models, methods and information technology to improve the quality of the scientific activity evaluation process. The introduction substantiates the relevance of the research topic. The connection of work with scientific programs, plans and themes is described, the scientific novelty is given, and also, the practical value of the received results is formulated. The first section provides an analytical review of approaches to the implementation of the process of scientific activity evaluation. The analysis of information-analytical search systems is performed, authoritative sources of scientometric data are singled out, the main scientometric indicators and metrics used in practice are analyzed. The components of scientometric systems and factors that affect their quality are determined. Under the evaluation of scientific activity, we seem the study of the scientific process quality, in particular, the quality of all stages of scientific work, including the quality of scientific publications. The quality and originality of scientific research can be ensured by preventing academic fraud, detecting the detection of potential academic plagiarism. The original text is a text created by the author himself, in which we used textual borrowings, with reference to the original source. Therefore, the study includes the task of creating information technology to determine the author's style to identify the author and the method of highlighting the author's idea, finding documents in which the ideas are semantically similar. Based on the analysis of the components of the scientific activity evaluation process, the main directions of research are formed and the main tasks of the dissertation are determined. The second section considers the issues and describes the developed information technology for determining the author's style in academic texts in Ukrainian and Russian. Researchers of the world distinguish different groups of stylometric properties. But not all properties are equally effective for any language and any text. In this work, a group of stylometric properties was applied to academic texts in Ukrainian and Russian. A model of text representation in the form of stylometric sets of features is formed. On the basis of this model the stylometric properties by means of which identification of the author of the text is possible are allocated. The use of contextual modeling and machine learning methods for the classification of texts based on stylometric properties by certain classes (by authors) is proposed. The second section considers the issues and describes the developed information technology for determining the author's style in academic texts in Ukrainian and Russian. Researchers of the world distinguish different groups of stylometric properties. But not all properties are equally effective for any language and any text. In this work, a group of stylometric properties was applied to academic texts in Ukrainian and Russian. A model of text representation in the form of stylometric sets of features is formed. On the basis of this model, the stylometric properties for identifying text author. The use of contextual modeling and machine learning methods for the classification of texts based on stylometric properties by certain classes (by authors) is proposed. The third section considers the issue of defining the author's idea of an academic text in the Ukrainian language to define disguised intellectual academic plagiarism. The graphic method (TextRank) has been adapted to the features of the scientific text to extract the main idea of the text that forms the abstract. A method for determining the author's idea based on the analysis of anaphoric data using an adapted TextRank method has been developed. To describe the semantic collections between sentences, the apparatus of algebra of finite predecessors and previous operations, the method of comparative identification, built by a logical network, is used. The fourth section is devoted to the methods of building the ratings of academic institutions. Methods of evaluating the academic institutions scientific activity and the factors influencing the quality of the result are considered. Peculiarities of the authors' publishing behavior are investigated. It is determined that the priority use of data from publishing activity can lead to manipulation of this data. The analysis of the used sources list characteristics is carried out. A method for determining the quality of the list of used sources as one of the qualitative characteristics of a scientific document has been developed. The analysis of the national ranking of Scopus academic institutions showed some shortcomings. The method of ranking academic institutions using the data of scientometric systems Scopus and Web of Science SS is proposed, which takes into account the features of the evaluated objects and the limitations of bibliometric methods. In the fifth section, the practical implementation of the proposed information technologies and methods is performed. The use of diversity and statistical parameters coefficients of the text, lexical, and symbolic properties to identify the author's style in Ukrainian and Russian is shown. The method of contextual modeling of Forecasting by means of machine learning partial coordination and methods: Naive Bayes, Naive Bayes Multinomial, Support Vector Machine, trees of decisions for the decision of problems of classification, namely for the certain authors are applied. The use of the developed technique for highlighting the main idea of the text and comparing the ideas of the two documents are tested. Thus, the dissertation solves a scientifically complex task to ensure the quality of scientific activity evaluation. Their solution is implemented through the development of information technology, methods, techniques, and softw are applications that create the conditions for improving the quality of scientific activities evaluation of promoting academic volunteering in academia through software, ensuring the reliability of research indicators and fair approaches to ranking, project evaluations. The following results were obtained for the first time: for the first time a method of author's idea identification in an academic text was developed, based on intellectual analysis of data, which differs from existing ones by novelty and a llows to identify signs of hidden (intellectual) academic plagiarism in scientific works; For the first time, a method of assessing the list of the used sources of quality developed as one of the criteria for assessing the quality of the article, which allowed to focus the reviewer's attention and prevent possible manipulative behavior of the authors. Information technology for determining the author's style of Ukrainian - language and Russian-language individual academic publications was further developed. This technology is based on machine learning methods and linguistic technologies, which allows to create a single technology for determining authorship. The method of forming the academic institutions rating on the basis of informatics indicators has been improved, which takes into account the peculiarities of the studied objects and the limitations of bibliometric methods. The dissertation is part of research work performed at the Department of Intelligent Computer Systems "Development of models and methods for identifying the processes of knowledge extraction in poorly structured arrays of information" (2017/2018 р., № ДР 0117U004726). Developed information technology, methods, techniques and software application implemented: − in the work of "URAN Publishing Service" Ltd., Association of users of Ukrainian National Research and Education Network “URAN” (Kyiv, Ukraine); − in the process of text data processing in solving practical problems of "SOLTI Company" (Kharkiv, Ukraine); − in the work of the Scientific Library of Yaroslav Mudryi National Law University (Kharkiv, Ukraine); − in the scientific and technical library of the National Technical University "Kharkiv Polytechnic Institute" (Kharkiv, Ukraine); − in the educational process of the Department of Information Resources and Communications of the educational institution of the Belarusian State University of Culture and Arts (Minsk, Belarus); − in the educational process of the Department of Intelligent Computer Systems of the Faculty of Social and Humanitarian Technologies of the National Technical University "Kharkiv Polytechnic Institute" (Kharkiv, Ukraine).
The thesis is submitted to obtain a scientific degree of Doctor of Philosophy, specialty 122 – Computer Sciense – National Technical University "Kharkiv Polytechnic Institute", Kharkiv, 2020. The object of the research is the processes of scientific activity evaluation. The subject of research are models, methods and information technology to improve the quality of the scientific activity evaluation process. The introduction substantiates the relevance of the research topic. The connection of work with scientific programs, plans and themes is described, the scientific novelty is given, and also, the practical value of the received results is formulated. The first section provides an analytical review of approaches to the implementation of the process of scientific activity evaluation. The analysis of information-analytical search systems is performed, authoritative sources of scientometric data are singled out, the main scientometric indicators and metrics used in practice are analyzed. The components of scientometric systems and factors that affect their quality are determined. Under the evaluation of scientific activity, we seem the study of the scientific process quality, in particular, the quality of all stages of scientific work, including the quality of scientific publications. The quality and originality of scientific research can be ensured by preventing academic fraud, detecting the detection of potential academic plagiarism. The original text is a text created by the author himself, in which we used textual borrowings, with reference to the original source. Therefore, the study includes the task of creating information technology to determine the author's style to identify the author and the method of highlighting the author's idea, finding documents in which the ideas are semantically similar. Based on the analysis of the components of the scientific activity evaluation process, the main directions of research are formed and the main tasks of the dissertation are determined. The second section considers the issues and describes the developed information technology for determining the author's style in academic texts in Ukrainian and Russian. Researchers of the world distinguish different groups of stylometric properties. But not all properties are equally effective for any language and any text. In this work, a group of stylometric properties was applied to academic texts in Ukrainian and Russian. A model of text representation in the form of stylometric sets of features is formed. On the basis of this model the stylometric properties by means of which identification of the author of the text is possible are allocated. The use of contextual modeling and machine learning methods for the classification of texts based on stylometric properties by certain classes (by authors) is proposed. The second section considers the issues and describes the developed information technology for determining the author's style in academic texts in Ukrainian and Russian. Researchers of the world distinguish different groups of stylometric properties. But not all properties are equally effective for any language and any text. In this work, a group of stylometric properties was applied to academic texts in Ukrainian and Russian. A model of text representation in the form of stylometric sets of features is formed. On the basis of this model, the stylometric properties for identifying text author. The use of contextual modeling and machine learning methods for the classification of texts based on stylometric properties by certain classes (by authors) is proposed. The third section considers the issue of defining the author's idea of an academic text in the Ukrainian language to define disguised intellectual academic plagiarism. The graphic method (TextRank) has been adapted to the features of the scientific text to extract the main idea of the text that forms the abstract. A method for determining the author's idea based on the analysis of anaphoric data using an adapted TextRank method has been developed. To describe the semantic collections between sentences, the apparatus of algebra of finite predecessors and previous operations, the method of comparative identification, built by a logical network, is used. The fourth section is devoted to the methods of building the ratings of academic institutions. Methods of evaluating the academic institutions scientific activity and the factors influencing the quality of the result are considered. Peculiarities of the authors' publishing behavior are investigated. It is determined that the priority use of data from publishing activity can lead to manipulation of this data. The analysis of the used sources list characteristics is carried out. A method for determining the quality of the list of used sources as one of the qualitative characteristics of a scientific document has been developed. The analysis of the national ranking of Scopus academic institutions showed some shortcomings. The method of ranking academic institutions using the data of scientometric systems Scopus and Web of Science SS is proposed, which takes into account the features of the evaluated objects and the limitations of bibliometric methods. In the fifth section, the practical implementation of the proposed information technologies and methods is performed. The use of diversity and statistical parameters coefficients of the text, lexical, and symbolic properties to identify the author's style in Ukrainian and Russian is shown. The method of contextual modeling of Forecasting by means of machine learning partial coordination and methods: Naive Bayes, Naive Bayes Multinomial, Support Vector Machine, trees of decisions for the decision of problems of classification, namely for the certain authors are applied. The use of the developed technique for highlighting the main idea of the text and comparing the ideas of the two documents are tested. Thus, the dissertation solves a scientifically complex task to ensure the quality of scientific activity evaluation. Their solution is implemented through the development of information technology, methods, techniques, and softw are applications that create the conditions for improving the quality of scientific activities evaluation of promoting academic volunteering in academia through software, ensuring the reliability of research indicators and fair approaches to ranking, project evaluations. The following results were obtained for the first time: for the first time a method of author's idea identification in an academic text was developed, based on intellectual analysis of data, which differs from existing ones by novelty and a llows to identify signs of hidden (intellectual) academic plagiarism in scientific works; For the first time, a method of assessing the list of the used sources of quality developed as one of the criteria for assessing the quality of the article, which allowed to focus the reviewer's attention and prevent possible manipulative behavior of the authors. Information technology for determining the author's style of Ukrainian - language and Russian-language individual academic publications was further developed. This technology is based on machine learning methods and linguistic technologies, which allows to create a single technology for determining authorship. The method of forming the academic institutions rating on the basis of informatics indicators has been improved, which takes into account the peculiarities of the studied objects and the limitations of bibliometric methods. The dissertation is part of research work performed at the Department of Intelligent Computer Systems "Development of models and methods for identifying the processes of knowledge extraction in poorly structured arrays of information" (2017/2018 р., № ДР 0117U004726). Developed information technology, methods, techniques and software application implemented: − in the work of "URAN Publishing Service" Ltd., Association of users of Ukrainian National Research and Education Network “URAN” (Kyiv, Ukraine); − in the process of text data processing in solving practical problems of "SOLTI Company" (Kharkiv, Ukraine); − in the work of the Scientific Library of Yaroslav Mudryi National Law University (Kharkiv, Ukraine); − in the scientific and technical library of the National Technical University "Kharkiv Polytechnic Institute" (Kharkiv, Ukraine); − in the educational process of the Department of Information Resources and Communications of the educational institution of the Belarusian State University of Culture and Arts (Minsk, Belarus); − in the educational process of the Department of Intelligent Computer Systems of the Faculty of Social and Humanitarian Technologies of the National Technical University "Kharkiv Polytechnic Institute" (Kharkiv, Ukraine).
Опис
Ключові слова
дисертація, оцінка наукової діяльності, наукометрія, академічний плагіат, академічна доброчесність, авторський стиль, визначення авторської ідеї, академічні рейтинги, evaluation of scientific activity, scientometrics, academic plagiarism, academic integrity, writing style, Authorship Attribution, definition of the author's idea, academic ratings
Бібліографічний опис
Главчева Ю. М. Методи та інформаційна технологія інформетрії в академічному інформаційному середовищі [Електронний ресурс] : дис. ... д-ра філософії : спец. 122 : галузь знань 12 / Юлія Миколаївна Главчева ; наук. керівник Каніщева О. В. ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2020. – 227 с. – Бібліогр.: с. 180-173. – укр.