A multi-layer Delta Lakehouse for epidemiological monitoring and forecasting under emergencies

dc.contributor.authorParfeniuk, Yurii
dc.contributor.authorBazilevych, Kseniia
dc.contributor.authorMeniailov, Ievgen
dc.contributor.authorChumachenko, Dmytro
dc.date.accessioned2025-11-03T09:19:26Z
dc.date.issued2025
dc.description.abstractPublic health emergencies demand fast, dependable analytics that combine real-time signals with trustworthy historical data. Open, interoperable platforms that support streaming and batch workflows can shorten the time from detection to action while preserving data quality and auditability. Aim: To design and justify an information system architecture for analyzing epidemic threats under emergency conditions that is scalable, reliable, and fit for integration with clinical and non-traditional data sources. Methods: We conducted a structured review of three data analytics architectures (Lambda, Kappa, Delta) and mapped their strengths and limits to crisis surveillance needs. Based on functional and non-functional requirements, we specified a Delta Lake–based lakehouse with bronze-silver-gold tiers, unified batch/stream ingestion with Spark Structured Streaming, ACID tables with time travel and schema control, and an analytics layer that supports forecasting with MLOps for monitoring, drift checks, retraining, and lineage. Results: The proposed architecture meets core emergency needs for timeliness, integrity, and reproducibility through ACID transactions, versioned datasets, and curated tiers; supports standards-based interoperability and the inclusion of wastewater, mobility, and other environmental feeds; provides a single code path for batch and streaming to reduce reconciliation burden; and sets operational guardrails for latency versus cost when running many near-real-time tables. We outline practical considerations for quality checks in the silver tier, promotion rules to gold, and model governance.
dc.description.abstractНадзвичайні ситуації у сфері громадського здоров’я потребують швидкої та надійної аналітики, що поєднує сигнали реального часу з достовірними історичними даними. Відкриті, інтероперабельні платформи, які підтримують потокові та пакетні робочі процеси, дають змогу скоротити час від виявлення до реагування, зберігаючи якість даних і можливість аудиту. Мета: спроєктувати та обґрунтувати архітектуру інформаційної системи для аналізу епідемічних загроз в умовах надзвичайних ситуацій, яка є масштабованою, надійною та придатною до інтеграції з клінічними й некласичними джерелами даних. Методи: проведено структурований огляд трьох архітектур аналітики даних (Lambda, Kappa, Delta) та зіставлено їхні сильні сторони й обмеження з потребами нагляду під час криз. Виходячи з функціональних і нефункціональних вимог, визначено Lakehouse на базі Delta Lake із рівнями bronze–silver–gold, уніфікованим прийманням пакетних/потокових даних за допомогою Spark Structured Streaming, ACID-таблицями з можливістю «подорожі в часі» (time travel) та контролем схеми, а також аналітичним шаром, що підтримує прогнозування з використанням MLOps для моніторингу, перевірки дрейфу, перевчитування та відстежуваності (lineage). Результати: запропонована архітектура задовольняє ключові потреби надзвичайних умов щодо своєчасності, цілісності та відтворюваності завдяки ACID-транзакціям, версіонуванню наборів даних і курованим рівням; підтримує інтероперабельність на основі стандартів та підключення даних стічних вод, мобільності й інших екологічних джерел; забезпечує єдиний кодовий шлях для пакетної та потокової обробки, зменшуючи тягар узгодження; визначає операційні межі між затримкою та вартістю під час роботи з багатьма таблицями, що оновлюються майже в реальному часі. Окреслено практичні підходи до перевірок якості на "срібному" рівні, правил промоції до "золотого" рівня та управління моделями.
dc.identifier.citationA multi-layer Delta Lakehouse for epidemiological monitoring and forecasting under emergencies / Y. Parfeniuk [et al.] // Сучасні інформаційні системи = Advanced Information Systems. – 2025. – Т. 9, № 4. – С. 57-65.
dc.identifier.doihttps://doi.org/10.20998/2522-9052.2025.4.08
dc.identifier.orcidhttps://orcid.org/0000-0001-5357-1868
dc.identifier.orcidhttps://orcid.org/0000-0001-5332-9545
dc.identifier.orcidhttps://orcid.org/0000-0002-9440-8378
dc.identifier.orcidhttps://orcid.org/0000-0003-2623-3294
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/94740
dc.language.isoen
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"
dc.subjectepidemic surveillance
dc.subjectoutbreak analytics
dc.subjectLakehouse
dc.subjectDelta lake
dc.subjectmachine learning
dc.subjectепідеміологічний нагляд
dc.subjectаналітика спалахів
dc.subjectLakehouse
dc.subjectDelta Lake
dc.subjectмашинне навчання
dc.titleA multi-layer Delta Lakehouse for epidemiological monitoring and forecasting under emergencies
dc.title.alternativeБагаторівнева архітектура Delta Lakehouse для епідеміологічного моніторингу та прогнозування в умовах надзвичайних ситуацій
dc.typeArticle

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
AIS_2025_9_4_Parfeniuk_Multi_layer.pdf
Розмір:
627.72 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
2.95 KB
Формат:
Item-specific license agreed upon to submission
Опис: