Мікросервіс заповнення моделі знань термінів‑визначень із документів PDF формату
Вантажиться...
Дата
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник/консультант
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
The University of Technology in Katowice Press
Анотація
The article describes a microservice for automated generation of ‘term-definition’ pairs from documents, in particular PDF files with complex internal structure. The processing pipeline includes file type identification, text extraction using the pdfplumber library, normalisation and artefact removal, segmentation, identification of defining structures based on templates and heuristics, and generation of results in JSON format for integration into educational systems. The development supports Ukrainian and English languages, has the prospect of expansion to other formats and integration with NLP models to improve semantic relevance. The advantages of the solution are transparent architecture, efficiency, stability when working with heterogeneous PDFs, and no need for additional model training.
Опис
Ключові слова
мікросервіси, моделі знань, терміни-визначення, PDF-документи, конвертація, вилучення інформації
Бібліографічний опис
Глєбов Є. Мікросервіс заповнення моделі знань термінів‑визначень із документів PDF формату / Євгеній Глєбов, Ганна Заволодько // Innovation and digital transformation: education, economy and society dimensions : coll. monograph / ed. by: Tetyana Nestorenko, Nazar Dobosh ; University of Technology in Katowice Press. – Katowice : UTKP, 2025. – P. 167-173.
