Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів

Кондратов, Олексій Михайлович; Нікуліна, Олена Миколаївна

doi:https://doi.org/10.20998/2079-0023.2025.01.16

Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів

dc.contributor.author	Кондратов, Олексій Михайлович
dc.contributor.author	Нікуліна, Олена Миколаївна
dc.date.accessioned	2025-07-26T13:09:56Z
dc.date.issued	2025
dc.description.abstract	У статті розглянуто підхід до ідентифікації параметрів динамічних об’єктів у відеопотоці з використанням трансформерної архітектури, моделі GeoNet та ансамблевих методів машинного навчання, зокрема бегінгу та бустінгу. Ідентифікація параметрів таких об’єктів, як положення, швидкість, напрям руху та глибина, має важливе значення для широкого спектра застосувань, включаючи автономне водіння, робототехніку та системи відеоспостереження. У роботі описано комплексну систему, яка забезпечує інтеграцію просторово-часових характеристик відеопотоку через обчислення оптичного потоку та карти глибини за допомогою GeoNet, їх подальший аналіз із застосуванням трансформера, а також підвищення точності завдяки ансамблюванню результатів. GeoNet, як глибока згорткова нейронна мережа, об’єднує завдання оцінки глибини та оптичного потоку в єдину архітектуру, що дозволяє точно реконструювати тривимірну сцену. Використання трансформера дозволяє моделювати глобальні залежності в кадрах відео та покращити точність класифікації та виявлення об’єктів. Водночас, бегінг зменшує дисперсію шляхом усереднення результатів кількох моделей, навчених на різних підвибірках, а бустінг дозволяє фокусуватися на складних прикладах для підвищення точності прогнозу. Запропонована система забезпечує високу точність в умовах динамічного фону, зміни освітлення, оклюзії та шумів, завдяки чому може бути адаптована для використання в реальному часі в складних сценах. Наведено детальний опис кожного з компонентів системи: архітектури GeoNet, модулів трансформера, реалізації бегінгу та бустінгу, а також алгоритму об’єднання результатів. The article presents an approach to identifying the parameters of dynamic objects in a video stream using a transformer-based architecture, the GeoNet model, and ensemble machine learning methods, namely bagging and boosting. The identification of parameters such as position, velocity, direction of movement, and depth is of significant importance for a wide range of applications, including autonomous driving, robotics, and video surveillance systems. The paper describes a comprehensive system that integrates the spatiotemporal characteristics of a video stream by computing optical flow and depth maps using GeoNet, further analyzing them through a transformer, and enhancing accuracy via ensemble methods. GeoNet, as a deep convolutional neural network, combines the tasks of depth estimation and optical flow within a single architecture, enabling accurate 3D scene reconstruction. The use of a transformer allows modeling global dependencies across video frames and improves the accuracy of object classification and detection. At the same time, bagging reduces variance by averaging the results of several models trained on different subsets, while boosting focuses on difficult examples to improve prediction accuracy. The proposed system achieves high accuracy under conditions of dynamic background, lighting changes, occlusions, and noise, making it adaptable for real-time use in complex scenes. A detailed description of each system component is provided: the GeoNet architecture, transformer modules, implementation of bagging and boosting, and the result fusion algorithm.
dc.identifier.citation	Кондратов О. М. Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів / О. М. Кондратов, О. М. Нікуліна // Вісник Національного технічного університету "ХПІ". Серія: Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Series: System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2025. – № 1 (13). – С. 106-111.
dc.identifier.doi	https://doi.org/10.20998/2079-0023.2025.01.16
dc.identifier.orcid	https://orcid.org/0000-0001-6367-9944
dc.identifier.orcid	https://orcid.org/0000-0003-2938-4215
dc.identifier.uri	https://repository.kpi.kharkov.ua/handle/KhPI-Press/91638
dc.language.iso	uk
dc.publisher	Національний технічний університет "Харківський політехнічний інститут"
dc.subject	виявлення об'єктів
dc.subject	комп'ютерний зір
dc.subject	ансамблеві методи
dc.subject	глибоке навчання
dc.subject	згорткові нейронні мережі
dc.subject	машинне навчання
dc.subject	штучний інтелект
dc.subject	object detection
dc.subject	computer vision
dc.subject	ensemble methods
dc.subject	deep learning
dc.subject	convolutional neural networks
dc.subject	machine learning
dc.subject	artificial intelligence
dc.title	Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів
dc.title.alternative	Identification parameters of dynamic objects using transformer with optical flow and ensemble methods
dc.type	Article

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: visnyk_KhPI_2025_1_SAUIT_Kondratov_Identyfikatsiia.pdf
Розмір:: 534.46 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 2.95 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

2025 № 1 Системний аналіз, управління та інформаційні технології