Мікросервіс заповнення моделі знань термінів‑визначень із документів PDF формату

Вантажиться...
Ескіз

Дата

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

The University of Technology in Katowice Press

Анотація

The article describes a microservice for automated generation of ‘term-definition’ pairs from documents, in particular PDF files with complex internal structure. The processing pipeline includes file type identification, text extraction using the pdfplumber library, normalisation and artefact removal, segmentation, identification of defining structures based on templates and heuristics, and generation of results in JSON format for integration into educational systems. The development supports Ukrainian and English languages, has the prospect of expansion to other formats and integration with NLP models to improve semantic relevance. The advantages of the solution are transparent architecture, efficiency, stability when working with heterogeneous PDFs, and no need for additional model training.

Опис

Ключові слова

мікросервіси, моделі знань, терміни-визначення, PDF-документи, конвертація, вилучення інформації

Бібліографічний опис

Глєбов Є. Мікросервіс заповнення моделі знань термінів‑визначень із документів PDF формату / Євгеній Глєбов, Ганна Заволодько // Innovation and digital transformation: education, economy and society dimensions : coll. monograph / ed. by: Tetyana Nestorenko, Nazar Dobosh ; University of Technology in Katowice Press. – Katowice : UTKP, 2025. – P. 167-173.

Підтвердження

Рецензія

Додано до

Згадується в