Дослідження властивостей середовища керування даними та оцінка часу передачі великих наборів даних
Дата
2022
ORCID
DOI
doi.org/10.20998/2220-4784.2022.02.04
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
У статті розглядається задача оцінювання часу передачі великих наборів даних через розподілене середовище керування даними на основі самостійно створеної моделі нейронної мережі та дослідження властивостей цього середовища за допомогою методів статистичного аналізу. Для початкового аналізу отримано метадані для успішних передач файлів в системі, трансформовано та виділено змінні, які впливають на час передачі файлів. Під час аналізу використані різні вибірки, щоб перевірити, чи схожі результати в усіх наявних даних. Застосовано методи кореляційного, регресійного аналізу для дослідження середовища. Виявлено, що не існує чіткої кореляції між часом передачі та одним з вхідних
параметрів. Час передачі файлу залежить від ряду зовнішніх факторів, які неможливо отримати за допомогою метаданих, але можливо частково дослідити середовище використовуючи отримані метадані. Використано модель на основі двох вхідних рівнів для числових та категоріальних змінних, а потім об’єднаних в одну гілку. Для зображення результатів передбачення використовуються показники RMSE та діаграма розсіювання для порівняння цільових та передбачених значень. Проведені розрахунки показують задовільні результати передбачень.
The article considers the task of estimating the time of transmission of large data sets through a distributed data management environment based on a self-created neural network model and investigating the properties of this environment using statistical analysis methods. For the initial analysis, metadata for successful file transfers in the system was obtained, variables that affect file transfer time were transformed and highlighted. Different samples were used in the analysis to check whether the results were similar across the available data. The methods of correlation and regression analysis are applied for the study of the environment. It was found that there is no clear correlation between the transmission time and one of the input parameters. The file transfer time depends on a number of external factors that cannot be obtained using metadata, but it is possible to partially investigate the environment using the obtained metadata. A model based on two input levels for numerical and categorical variables was used and then combined into one branch. RMSE metric value and a scatter plot are used to display the prediction results to compare the target and predicted values. The performed calculations show satisfactory prediction results.
The article considers the task of estimating the time of transmission of large data sets through a distributed data management environment based on a self-created neural network model and investigating the properties of this environment using statistical analysis methods. For the initial analysis, metadata for successful file transfers in the system was obtained, variables that affect file transfer time were transformed and highlighted. Different samples were used in the analysis to check whether the results were similar across the available data. The methods of correlation and regression analysis are applied for the study of the environment. It was found that there is no clear correlation between the transmission time and one of the input parameters. The file transfer time depends on a number of external factors that cannot be obtained using metadata, but it is possible to partially investigate the environment using the obtained metadata. A model based on two input levels for numerical and categorical variables was used and then combined into one branch. RMSE metric value and a scatter plot are used to display the prediction results to compare the target and predicted values. The performed calculations show satisfactory prediction results.
Опис
Ключові слова
дослідження властивостей, оцінка часу передачі, методи статистичного аналізу, аналіз даних, регресія, кореляція, нейронна мережа, research of properties, transmission time estimation, methods of statistical analysis, data analysis, regression, correlation, neural network
Бібліографічний опис
Броварник О. О. Дослідження властивостей середовища керування даними та оцінка часу передачі великих наборів даних / О. О. Броварник, В. В. Овсяніков // Вісник Національного технічного університету "ХПІ". Сер. : Інноваційні дослідження у наукових роботах студентів : зб. наук. пр. = Bulletin of the National Technical University "KhPI". Ser. : Innovation researches in students’ scientific work : coll. of sci. papers / Нац. техн. ун-т "Харків. політехн. ін-т" ; гол. ред. С. І. Бухкало. – Харків : НТУ "ХПІ", 2022. – № 2 (1364). – С. 23-28.