Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів

Вантажиться...
Ескіз

Дата

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

У статті розглянуто підхід до ідентифікації параметрів динамічних об’єктів у відеопотоці з використанням трансформерної архітектури, моделі GeoNet та ансамблевих методів машинного навчання, зокрема бегінгу та бустінгу. Ідентифікація параметрів таких об’єктів, як положення, швидкість, напрям руху та глибина, має важливе значення для широкого спектра застосувань, включаючи автономне водіння, робототехніку та системи відеоспостереження. У роботі описано комплексну систему, яка забезпечує інтеграцію просторово-часових характеристик відеопотоку через обчислення оптичного потоку та карти глибини за допомогою GeoNet, їх подальший аналіз із застосуванням трансформера, а також підвищення точності завдяки ансамблюванню результатів. GeoNet, як глибока згорткова нейронна мережа, об’єднує завдання оцінки глибини та оптичного потоку в єдину архітектуру, що дозволяє точно реконструювати тривимірну сцену. Використання трансформера дозволяє моделювати глобальні залежності в кадрах відео та покращити точність класифікації та виявлення об’єктів. Водночас, бегінг зменшує дисперсію шляхом усереднення результатів кількох моделей, навчених на різних підвибірках, а бустінг дозволяє фокусуватися на складних прикладах для підвищення точності прогнозу. Запропонована система забезпечує високу точність в умовах динамічного фону, зміни освітлення, оклюзії та шумів, завдяки чому може бути адаптована для використання в реальному часі в складних сценах. Наведено детальний опис кожного з компонентів системи: архітектури GeoNet, модулів трансформера, реалізації бегінгу та бустінгу, а також алгоритму об’єднання результатів. The article presents an approach to identifying the parameters of dynamic objects in a video stream using a transformer-based architecture, the GeoNet model, and ensemble machine learning methods, namely bagging and boosting. The identification of parameters such as position, velocity, direction of movement, and depth is of significant importance for a wide range of applications, including autonomous driving, robotics, and video surveillance systems. The paper describes a comprehensive system that integrates the spatiotemporal characteristics of a video stream by computing optical flow and depth maps using GeoNet, further analyzing them through a transformer, and enhancing accuracy via ensemble methods. GeoNet, as a deep convolutional neural network, combines the tasks of depth estimation and optical flow within a single architecture, enabling accurate 3D scene reconstruction. The use of a transformer allows modeling global dependencies across video frames and improves the accuracy of object classification and detection. At the same time, bagging reduces variance by averaging the results of several models trained on different subsets, while boosting focuses on difficult examples to improve prediction accuracy. The proposed system achieves high accuracy under conditions of dynamic background, lighting changes, occlusions, and noise, making it adaptable for real-time use in complex scenes. A detailed description of each system component is provided: the GeoNet architecture, transformer modules, implementation of bagging and boosting, and the result fusion algorithm.

Опис

Бібліографічний опис

Кондратов О. М. Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів / О. М. Кондратов, О. М. Нікуліна // Вісник Національного технічного університету "ХПІ". Серія: Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Series: System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2025. – № 1 (13). – С. 106-111.

Підтвердження

Рецензія

Додано до

Згадується в