A multi-layer Delta Lakehouse for epidemiological monitoring and forecasting under emergencies
| dc.contributor.author | Parfeniuk, Yurii | |
| dc.contributor.author | Bazilevych, Kseniia | |
| dc.contributor.author | Meniailov, Ievgen | |
| dc.contributor.author | Chumachenko, Dmytro | |
| dc.date.accessioned | 2025-11-03T09:19:26Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Public health emergencies demand fast, dependable analytics that combine real-time signals with trustworthy historical data. Open, interoperable platforms that support streaming and batch workflows can shorten the time from detection to action while preserving data quality and auditability. Aim: To design and justify an information system architecture for analyzing epidemic threats under emergency conditions that is scalable, reliable, and fit for integration with clinical and non-traditional data sources. Methods: We conducted a structured review of three data analytics architectures (Lambda, Kappa, Delta) and mapped their strengths and limits to crisis surveillance needs. Based on functional and non-functional requirements, we specified a Delta Lake–based lakehouse with bronze-silver-gold tiers, unified batch/stream ingestion with Spark Structured Streaming, ACID tables with time travel and schema control, and an analytics layer that supports forecasting with MLOps for monitoring, drift checks, retraining, and lineage. Results: The proposed architecture meets core emergency needs for timeliness, integrity, and reproducibility through ACID transactions, versioned datasets, and curated tiers; supports standards-based interoperability and the inclusion of wastewater, mobility, and other environmental feeds; provides a single code path for batch and streaming to reduce reconciliation burden; and sets operational guardrails for latency versus cost when running many near-real-time tables. We outline practical considerations for quality checks in the silver tier, promotion rules to gold, and model governance. | |
| dc.description.abstract | Надзвичайні ситуації у сфері громадського здоров’я потребують швидкої та надійної аналітики, що поєднує сигнали реального часу з достовірними історичними даними. Відкриті, інтероперабельні платформи, які підтримують потокові та пакетні робочі процеси, дають змогу скоротити час від виявлення до реагування, зберігаючи якість даних і можливість аудиту. Мета: спроєктувати та обґрунтувати архітектуру інформаційної системи для аналізу епідемічних загроз в умовах надзвичайних ситуацій, яка є масштабованою, надійною та придатною до інтеграції з клінічними й некласичними джерелами даних. Методи: проведено структурований огляд трьох архітектур аналітики даних (Lambda, Kappa, Delta) та зіставлено їхні сильні сторони й обмеження з потребами нагляду під час криз. Виходячи з функціональних і нефункціональних вимог, визначено Lakehouse на базі Delta Lake із рівнями bronze–silver–gold, уніфікованим прийманням пакетних/потокових даних за допомогою Spark Structured Streaming, ACID-таблицями з можливістю «подорожі в часі» (time travel) та контролем схеми, а також аналітичним шаром, що підтримує прогнозування з використанням MLOps для моніторингу, перевірки дрейфу, перевчитування та відстежуваності (lineage). Результати: запропонована архітектура задовольняє ключові потреби надзвичайних умов щодо своєчасності, цілісності та відтворюваності завдяки ACID-транзакціям, версіонуванню наборів даних і курованим рівням; підтримує інтероперабельність на основі стандартів та підключення даних стічних вод, мобільності й інших екологічних джерел; забезпечує єдиний кодовий шлях для пакетної та потокової обробки, зменшуючи тягар узгодження; визначає операційні межі між затримкою та вартістю під час роботи з багатьма таблицями, що оновлюються майже в реальному часі. Окреслено практичні підходи до перевірок якості на "срібному" рівні, правил промоції до "золотого" рівня та управління моделями. | |
| dc.identifier.citation | A multi-layer Delta Lakehouse for epidemiological monitoring and forecasting under emergencies / Y. Parfeniuk [et al.] // Сучасні інформаційні системи = Advanced Information Systems. – 2025. – Т. 9, № 4. – С. 57-65. | |
| dc.identifier.doi | https://doi.org/10.20998/2522-9052.2025.4.08 | |
| dc.identifier.orcid | https://orcid.org/0000-0001-5357-1868 | |
| dc.identifier.orcid | https://orcid.org/0000-0001-5332-9545 | |
| dc.identifier.orcid | https://orcid.org/0000-0002-9440-8378 | |
| dc.identifier.orcid | https://orcid.org/0000-0003-2623-3294 | |
| dc.identifier.uri | https://repository.kpi.kharkov.ua/handle/KhPI-Press/94740 | |
| dc.language.iso | en | |
| dc.publisher | Національний технічний університет "Харківський політехнічний інститут" | |
| dc.subject | epidemic surveillance | |
| dc.subject | outbreak analytics | |
| dc.subject | Lakehouse | |
| dc.subject | Delta lake | |
| dc.subject | machine learning | |
| dc.subject | епідеміологічний нагляд | |
| dc.subject | аналітика спалахів | |
| dc.subject | Lakehouse | |
| dc.subject | Delta Lake | |
| dc.subject | машинне навчання | |
| dc.title | A multi-layer Delta Lakehouse for epidemiological monitoring and forecasting under emergencies | |
| dc.title.alternative | Багаторівнева архітектура Delta Lakehouse для епідеміологічного моніторингу та прогнозування в умовах надзвичайних ситуацій | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- AIS_2025_9_4_Parfeniuk_Multi_layer.pdf
- Розмір:
- 627.72 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 2.95 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис:
