A model for identifying project sprint tasks based on their description

The subject of research in this article is the identification of project sprint tasks. The purpose of the article is to find approaches to reducing the risks of not fulfilling sprint tasks. The article solves the following tasks: analyzing research on the classification and visualization of project tasks, developing an algorithm that can automatically classify text descriptions of sprint tasks, collecting and preparing a training sample of text descriptions of sprint tasks for training and testing the classification model, applying natural language processing methods to improve classification and ensure the accuracy of the results, validating the model on real data to assess the efficiency and accuracy of classification, and analyzing the results. The following methods have been used: machine learning methods for classification, text vectorization methods, methods for classifying text descriptions, natural language processing methods, methods for semantic analysis of task description text, methods for processing expert opinions. The following results were obtained: a comprehensive approach to using machine learning algorithms, including the collection and processing of textual descriptions of tasks, for classification and involvement of expert opinions to improve the qualityof task perception by the project team. Text expressions were classified based on the Bayesian classifier and neural classifiers. A visual representation of the data was implemented. Semantic analysis of the text of the description and title of the tasks was performed. Data markup was obtained to classify the quality of the wording, which was performed by a team of experts. To measure the reliability of the obtained expert assessments, we calculated Cohen's kappa coefficient for each pair of markers. According to the experimental results, the accuracy of the Bayesian classifier is 70%. For the classifier based on deep learning, a neural network for binary classification based on the transformer architecture was selected. The neural network was trained using the Python programming language and deep learning frameworks. The result is a classifier that gives an accuracy score of 83% on a test dataset, which is a good result for a small dataset and data with conflicting labels. Conclusions: the analysis of textual data confirms that the existing data in the tracking system is incomplete and contains abbreviations, conventions, and slang. The results show that the assessment of the quality of the wording is determined by the level of expert knowledge of the specifics and context of the project, while increasing the number of experts has almost no effect on the result. In further research, it is recommended to test the hypothesis that the effectiveness of the classifier depends on the specific project and the use of unsupervised learning methods for the task of identifying the quality of formulations. Предметом дослідження є ідентифікація завдань спринту проєкту. Мета статті – пошук підходів до зниження ризиків невиконання завдань спринту. У роботі вирішуються такі завдання: аналіз досліджень щодо класифікації та візуалізації завдань проєкту; розроблення алгоритму, який здатний автоматично класифікувати текстові описи завдань спринту; збір і підготовка навчальної вибірки текстових описів завдань спринту для навчання та тестування моделі класифікації; застосування методів оброблення природної мови для вдосконалення класифікації та забезпечення точності результатів, проведення валідації моделі на реальних показниках для оцінювання ефективності й точності класифікації; проведення аналізу результатів. Використовуються такі методи: машинне навчання для класифікації, векторизація текстів, класифікація текстових описів, оброблення природної мови, семантичний аналіз тексту опису завдань та оброблення експертних оцінок. Досягнуті результати. Запропоновано комплексний підхід використання алгоритмів машинного навчання, що передбачає збір та оброблення текстових описів завдань, для класифікації та залучення експертних оцінок з метою вдосконалення якості сприйняття завдань командою проєкту. Проведено класифікацію текстових висловів на основі класифікатора Баєса та нейронних класифікаторів. Реалізовано візуальну репрезентацію даних. Проведено семантичний аналіз тексту опису та назви завдання. Отримано розмітку даних для класифікації якості формулювань, яка була виконана командою експертів. Для вимірювання надійності отриманих оцінок експертів розраховано коефіцієнт каппа Коена для кожної пари розмітників. За результатами експериментів для класифікатора Баєса отримано точність 70%. Для класифікатора на основі глибокого навчання обрано нейронну мережу для бінарної класифікації на основі архітектури transformer. Проведено навчання нейронної мережі за допомогою мови програмування Pythonі фреймворків для глибокого навчання. Унаслідок отримано класифікатор, що на тестовому наборі оцінює з точністю 83%, що є гарним результатом для малого набору даних і даних із суперечливими мітками. Висновки. Аналіз текстової інформації підтверджує, що наявні в системі трекінгу дані не повні та містять скорочення, умовні познаки та сленг. Здобуті результати свідчать про те, що оцінка якості формулювань визначається рівнем обізнаності експерта щодо особливостей і контексту проєкту, водночас збільшення кількості експертів майже не впливає на результат. У подальших дослідженнях рекомендується перевірити гіпотезу про залежність ефективності класифікатора від конкретного проєкту та використання методів навчання без учителя для завдання ідентифікації якості формулювань.

Ключові слова

project, task description, project task management system, model, classifier, vector representation, проєкт, опис завдань, система управління завданнями проєктів, модель, класифікатор, векторна репрезентація

Бібліографічний опис

Grinchenko M. A model for identifying project sprint tasks based on their description / M. Grinchenko, M. Rohovyi // Сучасний стан наукових досліджень та технологій в промисловості. – 2023. – № 4 (26). – P. 33-44.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/93889

Колекції

Кафедра "Управління проєктами в інформаційних технологіях"

Повна інформація про документ
Google Scholar

A model for identifying project sprint tasks based on their description

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в