Integration of heterogeneous data using artificial intelligence methods
Вантажиться...
Дата
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник/консультант
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
The study employs theoretical analysis of scientific literature, comparative classification of multimodal architectures, systematization of fusion techniques, and formal generalization of model design principles. Additionally, attention is given to evaluating emerging paradigms powered by large-scale foundation models and transformer-based architectures. The primary methods and models for processing multimodal data are summarized, covering both classical and state-of-the-art approaches. Architectures of early (feature-level), late (decision-level), and hybrid (intermediate) fusion are described and compared in terms of flexibility, computational complexity, interpretability, and accuracy. Emerging solutions based on large multimodal transformer models, contrastive learning, and unified embedding spaces are also analyzed. Special attention is paid to cross-modal attention mechanisms that enable dynamic weighting of modalities depending on task context. The study determines that multimodal systems achieve significantly higher accuracy, stability, and semantic coherence in classification, detection, and interpretation tasks when modalities are properly synchronized and fused using adaptive strategies. These findings underscore the promise of further research toward scalable architectures capable of real-time multimodal reasoning, improved cross-modal transfer, and context-aware attention mechanisms.
У дослідженні використовується теоретичний аналіз наукової літератури, порівняльна класифікація мультимодальних архітектур, систематизація методів об’єднання та формальне узагальнення принципів проектування моделей. Крім того, увага приділяється оцінці нових парадигм, що базуються на великомасштабних фундаментальних моделях та архітектурах на основі трансформаторів. Узагальнено основні методи та моделі обробки мультимодальних даних, що охоплюють як класичні, так і найсучасніші підходи. Архітектури раннього (на рівні ознак), пізнього (на рівні рішень) та гібридного (проміжного) об’єднання описані та порівняні з точки зору гнучкості, обчислювальної складності, інтерпретованості та точності. Також аналізуються нові рішення, засновані на великих мультимодальних трансформаторних моделях, контрастному навчанні та уніфікованих просторах вбудовування. Особлива увага приділяється механізмам крос-модальної уваги, які дозволяють динамічне зважування модальностей залежно від контексту завдання. Дослідження визначає, що мультимодальні системи досягають значно вищої точності, стабільності та семантичної узгодженості в завданнях класифікації, виявлення та інтерпретації, коли модальності належним чином синхронізовані та об’єднані за допомогою адаптивних стратегій. Ці результати підкреслюють перспективність подальших досліджень у напрямку масштабованих архітектур, здатних до мультимодального мислення в реальному часі, покращеного крос-модального перенесення та контекстно-залежних механізмів уваги.
Опис
Ключові слова
multimodality, artificial intelligence, emotion classification, fusion architectures, audio-video-text processing, transformers, cross-modal attention, мультимодальність, штучний інтелект, емоційна класифікація, ф'южн-архітектури, обробка аудіо-відео-тексту, трансформери, крос-модальна увага
Бібліографічний опис
Zherebetskyi O. V. Integration of heterogeneous data using artificial intelligence methods / O. V. Zherebetskyi, O. A. Basystiuk // Вісник Національного технічного університету "ХПІ". Серія: Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Series: System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2025. – № 2 (14). – С. 90-95.
