Image classifier for fast search in large databases

Filatov, ValeriiFilatova, AnnaPovoroznyuk, AnatoliiOmarov, ShakhinImage classifier for fast search in large databasesКласифікатор зображень для швидкого пошуку у великих базах данихНаціональний технічний університет "Харківський політехнічний інститут"2024information systemscosine transformtwo-dimensional discretmathematical modelingimage processing methodsexperimentsomputational powerінформаційні системипошукконтенткласифікатор зображеньбази данихMy UniversityMy University2024-09-092024-09-092024enArticleImage classifier for fast search in large databases / V. Filatov, A. Filatova, A. Povoroznyuk, S. Omarov // Сучасні інформаційні системи = Advanced Information Systems. – 2024. – Т. 8, № 2. – С. 12-19https://repository.kpi.kharkov.ua/handle/KhPI-Press/81026https://doi.org/10.20998/2522-9052.2024.2.02https://orcid.org/0009-0007-7762-1517https://orcid.org/0000-0003-1982-2322https://orcid.org/0000-0003-2499-2350https://orcid.org/0000-0002-2887-9083Relevance. The avalanche-like growth in the amount of information on the Internet necessitates the development of effective methods for quickly processing such information in information systems.Clustering of news information is carried out by taking into account both the morphological analysis of texts and graphic content. Thus, an urgent task is the clustering of images accompanying textual information on various web resources, including news portals. The subject of studyis an image classifier that exhibits low sensitivity to increased information in databases. The purpose of the article is to enhance the efficiency of searching for identical images in databases experiencing a daily influx of 10-12 thousand images, by developing an image classifier. Methods used: mathematical modeling, content-based image retrieval, two-dimensional discrete cosine transform, image processing methods, decision-making methods. The following results were obtained. An image classifier has been developed with low sensitivity to increased database information. The properties of the developed classifier have been analyzed. The experiments demonstrated that clustering information based on images using the developed classifier proved to be sufficiently fast and cost-effective in terms of information volumes and computational power requirements.Актуальність. Лавиноподібне зростання кількості інформації в Інтернеті потребує розробки ефективних методів швидкої обробки такої інформації в інформаційних системах. Кластеризація новинної інформації проводиться як з урахуванням морфологічного аналізу текстів, так і графічного контенту. Таким чином, актуальним завданням є кластеризація зображень, що супроводжують текстову інформацію на різних веб-ресурсах, включаючи портали новин. Предмет дослідження:класифікатор зображень, що малочутливий до зростання кількості інформації в базах даних. Метою дослідженняє підвищення продуктивності пошуку однакових зображень у базах даних, у яких швидкість додавання інформації досягає 10-12 тисяч зображень на добу,шляхом розробки класифікатора зображень. Методи, що використовуються:математичне моделювання, пошук зображень на основі контенту, двовимірне дискретне косинусне перетворення, методи обробки зображень, методи прийняття рішень. Отримані результати.Розроблено класифікатор зображень, що малочутливий до зростання кількості інформації в базах даних. Виконано аналіз властивостей розробленого класифікатора. Проведені експерименти показали, що кластеризація інформації за зображеннями за допомогою розробленого класифікатора виявилася досить швидкою та маловитратною з погляду обсягів інформації та вимог до обчислювальної потужності.