Integration of heterogeneous data using artificial intelligence methods

dc.contributor.authorZherebetskyi, Oleh Vyacheslavovych
dc.contributor.authorBasystiuk, Oleh Andriyovych
dc.date.accessioned2026-01-12T11:38:30Z
dc.date.issued2025
dc.description.abstractThe study employs theoretical analysis of scientific literature, comparative classification of multimodal architectures, systematization of fusion techniques, and formal generalization of model design principles. Additionally, attention is given to evaluating emerging paradigms powered by large-scale foundation models and transformer-based architectures. The primary methods and models for processing multimodal data are summarized, covering both classical and state-of-the-art approaches. Architectures of early (feature-level), late (decision-level), and hybrid (intermediate) fusion are described and compared in terms of flexibility, computational complexity, interpretability, and accuracy. Emerging solutions based on large multimodal transformer models, contrastive learning, and unified embedding spaces are also analyzed. Special attention is paid to cross-modal attention mechanisms that enable dynamic weighting of modalities depending on task context. The study determines that multimodal systems achieve significantly higher accuracy, stability, and semantic coherence in classification, detection, and interpretation tasks when modalities are properly synchronized and fused using adaptive strategies. These findings underscore the promise of further research toward scalable architectures capable of real-time multimodal reasoning, improved cross-modal transfer, and context-aware attention mechanisms. У дослідженні використовується теоретичний аналіз наукової літератури, порівняльна класифікація мультимодальних архітектур, систематизація методів об’єднання та формальне узагальнення принципів проектування моделей. Крім того, увага приділяється оцінці нових парадигм, що базуються на великомасштабних фундаментальних моделях та архітектурах на основі трансформаторів. Узагальнено основні методи та моделі обробки мультимодальних даних, що охоплюють як класичні, так і найсучасніші підходи. Архітектури раннього (на рівні ознак), пізнього (на рівні рішень) та гібридного (проміжного) об’єднання описані та порівняні з точки зору гнучкості, обчислювальної складності, інтерпретованості та точності. Також аналізуються нові рішення, засновані на великих мультимодальних трансформаторних моделях, контрастному навчанні та уніфікованих просторах вбудовування. Особлива увага приділяється механізмам крос-модальної уваги, які дозволяють динамічне зважування модальностей залежно від контексту завдання. Дослідження визначає, що мультимодальні системи досягають значно вищої точності, стабільності та семантичної узгодженості в завданнях класифікації, виявлення та інтерпретації, коли модальності належним чином синхронізовані та об’єднані за допомогою адаптивних стратегій. Ці результати підкреслюють перспективність подальших досліджень у напрямку масштабованих архітектур, здатних до мультимодального мислення в реальному часі, покращеного крос-модального перенесення та контекстно-залежних механізмів уваги.
dc.identifier.citationZherebetskyi O. V. Integration of heterogeneous data using artificial intelligence methods / O. V. Zherebetskyi, O. A. Basystiuk // Вісник Національного технічного університету "ХПІ". Серія: Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Series: System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2025. – № 2 (14). – С. 90-95.
dc.identifier.doihttps://doi.org/10.20998/2079-0023.2025.02.12
dc.identifier.orcidhttps://orcid.org/0009-0004-6259-7065
dc.identifier.orcidhttps://orcid.org/0000-0003-0064-6584
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/97422
dc.language.isoen
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"
dc.subjectmultimodality
dc.subjectartificial intelligence
dc.subjectemotion classification
dc.subjectfusion architectures
dc.subjectaudio-video-text processing
dc.subjecttransformers
dc.subjectcross-modal attention
dc.subjectмультимодальність
dc.subjectштучний інтелект
dc.subjectемоційна класифікація
dc.subjectф'южн-архітектури
dc.subjectобробка аудіо-відео-тексту
dc.subjectтрансформери
dc.subjectкрос-модальна увага
dc.titleIntegration of heterogeneous data using artificial intelligence methods
dc.title.alternativeКомплексування різнотипових даних засобами штучного інтелекту
dc.typeArticle

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
visnyk_KhPI_2025_2_SAUIT_Zherebetskyi_Integration.pdf
Розмір:
570.53 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
11.15 KB
Формат:
Item-specific license agreed upon to submission
Опис: