Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів

dc.contributor.authorКондратов, Олексій Михайлович
dc.contributor.authorНікуліна, Олена Миколаївна
dc.date.accessioned2025-07-26T13:09:56Z
dc.date.issued2025
dc.description.abstractУ статті розглянуто підхід до ідентифікації параметрів динамічних об’єктів у відеопотоці з використанням трансформерної архітектури, моделі GeoNet та ансамблевих методів машинного навчання, зокрема бегінгу та бустінгу. Ідентифікація параметрів таких об’єктів, як положення, швидкість, напрям руху та глибина, має важливе значення для широкого спектра застосувань, включаючи автономне водіння, робототехніку та системи відеоспостереження. У роботі описано комплексну систему, яка забезпечує інтеграцію просторово-часових характеристик відеопотоку через обчислення оптичного потоку та карти глибини за допомогою GeoNet, їх подальший аналіз із застосуванням трансформера, а також підвищення точності завдяки ансамблюванню результатів. GeoNet, як глибока згорткова нейронна мережа, об’єднує завдання оцінки глибини та оптичного потоку в єдину архітектуру, що дозволяє точно реконструювати тривимірну сцену. Використання трансформера дозволяє моделювати глобальні залежності в кадрах відео та покращити точність класифікації та виявлення об’єктів. Водночас, бегінг зменшує дисперсію шляхом усереднення результатів кількох моделей, навчених на різних підвибірках, а бустінг дозволяє фокусуватися на складних прикладах для підвищення точності прогнозу. Запропонована система забезпечує високу точність в умовах динамічного фону, зміни освітлення, оклюзії та шумів, завдяки чому може бути адаптована для використання в реальному часі в складних сценах. Наведено детальний опис кожного з компонентів системи: архітектури GeoNet, модулів трансформера, реалізації бегінгу та бустінгу, а також алгоритму об’єднання результатів. The article presents an approach to identifying the parameters of dynamic objects in a video stream using a transformer-based architecture, the GeoNet model, and ensemble machine learning methods, namely bagging and boosting. The identification of parameters such as position, velocity, direction of movement, and depth is of significant importance for a wide range of applications, including autonomous driving, robotics, and video surveillance systems. The paper describes a comprehensive system that integrates the spatiotemporal characteristics of a video stream by computing optical flow and depth maps using GeoNet, further analyzing them through a transformer, and enhancing accuracy via ensemble methods. GeoNet, as a deep convolutional neural network, combines the tasks of depth estimation and optical flow within a single architecture, enabling accurate 3D scene reconstruction. The use of a transformer allows modeling global dependencies across video frames and improves the accuracy of object classification and detection. At the same time, bagging reduces variance by averaging the results of several models trained on different subsets, while boosting focuses on difficult examples to improve prediction accuracy. The proposed system achieves high accuracy under conditions of dynamic background, lighting changes, occlusions, and noise, making it adaptable for real-time use in complex scenes. A detailed description of each system component is provided: the GeoNet architecture, transformer modules, implementation of bagging and boosting, and the result fusion algorithm.
dc.identifier.citationКондратов О. М. Ідентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів / О. М. Кондратов, О. М. Нікуліна // Вісник Національного технічного університету "ХПІ". Серія: Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Series: System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2025. – № 1 (13). – С. 106-111.
dc.identifier.doihttps://doi.org/10.20998/2079-0023.2025.01.16
dc.identifier.orcidhttps://orcid.org/0000-0001-6367-9944
dc.identifier.orcidhttps://orcid.org/0000-0003-2938-4215
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/91638
dc.language.isouk
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"
dc.subjectвиявлення об'єктів
dc.subjectкомп'ютерний зір
dc.subjectансамблеві методи
dc.subjectглибоке навчання
dc.subjectзгорткові нейронні мережі
dc.subjectмашинне навчання
dc.subjectштучний інтелект
dc.subjectobject detection
dc.subjectcomputer vision
dc.subjectensemble methods
dc.subjectdeep learning
dc.subjectconvolutional neural networks
dc.subjectmachine learning
dc.subjectartificial intelligence
dc.titleІдентифікація параметрів динамічних об'єктів з використанням трансформера з оптичним потоком та ансамблевих методів
dc.title.alternativeIdentification parameters of dynamic objects using transformer with optical flow and ensemble methods
dc.typeArticle

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
visnyk_KhPI_2025_1_SAUIT_Kondratov_Identyfikatsiia.pdf
Розмір:
534.46 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
2.95 KB
Формат:
Item-specific license agreed upon to submission
Опис: