Data-driven method to support business process model quality analysis using size features and complexity metrics

This paper addresses the problem of improving the efficiency of BPMN model quality assessment by employing a formalized approach to analyzing their structural features. The relevance of this research stems from the widespread use of business process modeling in modern organizations, where model quality impacts management effectiveness, process automation, and decision-making. Despite the significant number of existing metrics, the lack of consistent approaches to their use and interpretation complicates the practical use of analysis results, necessitating the development of methods focused on identifying the most informative features of models. This paper considers an approach to selecting relevant features and complexity metrics of BPMN models for subsequent use in their quality analysis. Particular attention is paid to the statistical relationships between model size features and their structural complexity metrics to facilitate the transition from descriptive analysis to formalized evaluation. A proposed method includes the stages of processing BPMN documents as graph structures, extracting structural features, calculating complexity metrics, performing correlation analysis, and selecting strongly correlated pairs of features and metrics. To validate the method, an open repository of BPMN models was used, and a dataset containing calculated features and metrics was generated. To organize the data, a star schema data warehouse was implemented with the ability to subsequently create separate data marts for machine learning tasks. The ETL process was implemented using Python and the Pandas library, and data storage is handled by MariaDB. Experimental results demonstrate the high performance of the proposed approach; in particular, the average processing time for a single BPMN model is approximately 0.0016 seconds, confirming the scalability of the method for large sets of BPMN models of real organizations. Thus, the results obtained allow us to identify a subset of the most informative features and metrics that can be used as complexity predictors when applying machine learning methods to predict the quality of BPMN models in the early stages of their design.
Розглядається задача підвищення продуктивності оцінювання якості BPMN-моделей шляхом використання формалізованого підходу до аналізу їх структурних характеристик. Актуальність дослідження зумовлена широким застосуванням моделювання бізнес-процесів у сучасних організаціях, де якість моделей впливає на ефективність управління, автоматизацію процесів та прийняття рішень. Попри значну кількість існуючих метрик, відсутність узгоджених підходів до їх використання та інтерпретації ускладнює практичне застосування результатів аналізу, що обумовлює необхідність розробки методів, орієнтованих на виявлення найбільш інформативних характеристик моделей. У роботі розглянуто підхід до відбору релевантних ознак та метрик складності BPMN-моделей для подальшого використання у задачах аналізу їх якості. Особливу увагу приділено статистичним залежностям між ознаками розмірності моделей та метриками їх структурної складності для переходу від описового аналізу до формалізованого оцінювання. Запропоновано метод, який включає етапи обробки BPMN-документів як графових структур, вилучення структурних ознак, обчислення метрик складності, кореляційного аналізу та відбору сильно пов’язаних пар ознак і метрик. Для перевірки методу використано відкритий репозиторій BPMN-моделей, сформовано набір даних із обчисленими ознаками та метриками. Для організації даних реалізовано сховище даних типу «зірка» з можливістю подальшого формування окремих вітрин даних для вирішення задач машинного навчання. Процедуру ETL реалізовано засобами Python та бібліотеки Pandas, а зберігання даних здійснюється засобами MariaDB. Експериментальні результати демонструють високу продуктивність запропонованого підходу, зокрема середній час обробки однієї BPMN-моделі становить близько 0,0016 секунд, що підтверджує можливість масштабування методу для великих наборів BPMN-моделей реальних організацій. Отже, отримані результати дозволяють визначити підмножину найбільш інформативних ознак і метрик, які можуть бути використані як предиктори складності при подальшому застосуванні методів машинного навчання з метою прогнозування якості BPMN-моделей на ранніх етапах їх проєктування.

Ключові слова

business process model, model quality, size features, complexity metrics, data warehouse, data mart, correlation analysis, модель бізнес-процесу, якість моделі, ознаки розмірності, метрики складності, сховище даних, вітрина даних, кореляційний аналіз

Бібліографічний опис

Kopp A. M., Litvinova U. S., Luchnoi R. V., Otreshko I. I., Kudii D. A. Data-driven method to support business process model quality analysis using size features and complexity metrics. Наука і техніка сьогодні (Серія "Техніка"). 2026. Вип. 4 (58). С. 2516-2527. https://doi.org/10.52058/2786-6025-2026-4(58)-2516-2527.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/101917

Колекції

Кафедра "Програмна інженерія та інтелектуальні технології управління ім. А. В. Дабагяна"

Повна інформація про документ
Google Scholar

Data-driven method to support business process model quality analysis using size features and complexity metrics

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в