Оптимізація множення квантованих однобітних матриць для великих мовних моделей

Сальніков, Дмитро Валентинович; Васильченков, Олег Георгійович; Караман, Дмитро Григорович

doi:https://doi.org/10.26906/SUNZ.2025.3.136-141

Оптимізація множення квантованих однобітних матриць для великих мовних моделей

dc.contributor.author	Сальніков, Дмитро Валентинович
dc.contributor.author	Васильченков, Олег Георгійович
dc.contributor.author	Караман, Дмитро Григорович
dc.date.accessioned	2026-01-22T09:57:51Z
dc.date.issued	2025
dc.description.abstract	У зв’язку з активним розвитком та вдосконаленням систем штучного інтелекту останнім часом обробка природної мови стала однією з найбільш актуальних та затребуваних задач. Засоби та алгоритми на базі великих мовних моделей, що забезпечують обробку природної мови та перетворення мови в текстові данні, активно застосовуються для реалізації методів автоматизації різноманітних повсякденних задач, а також систем обслуговування та оперативної взаємодії з людиною. Для швидкого та адекватного опрацювання природної мови, з врахуванням синтаксичних та національних особливостей необхідно використовувати досить складні мовні моделі. Але великі мовні моделі потребують значних обсягів пам’яті та обчислювальної потужності, що ускладнює їх повсякденне використання на пристроях з обмеженими ресурсами, таких як мобільні пристрої з автономним живленням, вбудовані системи та пристрої Інтернету речей. Таким чином, оптимізація алгоритмів роботи мовних моделей та зниження апаратних витрат на їх реалізацію є як ніколи актуальною задачею. Для пришвидшення виконання та зменшення необхідних об’ємів пам’яті використовують алгоритми квантування коефіцієнтів мовних моделей. В даній роботі сформульовано проблеми, що виникають під час виконання квантованих операцій множення матриць, розглянуто популярні підходи до реалізації алгоритму множення матриць на графічних прискорювачах, та реалізовано оптимізоване за швидкістю виконання ядро множення квантованих 1-бітних матриць.
dc.description.abstract	With the rapid development and improvement of artificial intelligence systems, natural language processing has recently become one of the most relevant and in-demand tasks. Tools and algorithms based on large language models (LLMs) that enable natural language processing and speech-to-text conversion are actively used for automating various everyday tasks, as well as for service systems and real-time human interaction. Efficient and accurate natural language processing, taking into account syntactic and linguistic peculiarities, requires highly complex language models. However, large language models demand significant memory and computational resources, making their widespread use challenging on resource-constrained devices such as battery-powered mobile devices, embedded systems, and Internet of Things (IoT) devices. Thus, optimizing language model algorithms and reducing hardware costs for their deployment is an increasingly pressing issue. To accelerate execution and minimize memory requirements, quantization algorithms for language model parameters are employed. This work formulates key challenges associated with performing quantized matrix multiplication operations, explores popular approaches to implementing matrix multiplication algorithms on GPUs, and presents an optimized high-performance kernel for 1-bit quantized matrix multiplication.
dc.identifier.citation	Сальніков Д. В. Оптимізація множення квантованих однобітних матриць для великих мовних моделей / Д. В. Сальніков, О. Г. Васильченков, Д. Г. Караман // Системи управління, навігації та зв'язку = Control, navigation and communication systems : зб. наук. пр. / гол. ред. В. В. Косенко ; Полт. нац. техн. ун-т ім. Юрія Кондратюка. – Полтава : ПНТУ, 2025. – Вип. 3 (81). – С. 136-141.
dc.identifier.doi	https://doi.org/10.26906/SUNZ.2025.3.136-141
dc.identifier.orcid	https://orcid.org/0009-0007-6201-5370
dc.identifier.orcid	https://orcid.org/0000-0002-0969-2248
dc.identifier.orcid	https://orcid.org/0000-0002-7252-3172
dc.identifier.uri	https://repository.kpi.kharkov.ua/handle/KhPI-Press/97818
dc.language.iso	uk
dc.publisher	Національний університет “Полтавська політехніка імені Юрія Кондратюка”
dc.subject	квантовані операції
dc.subject	множення матриць
dc.subject	трансформери
dc.subject	великі мовні моделі
dc.subject	CUDA
dc.subject	GPU
dc.subject	LLM
dc.subject	Pytorch
dc.subject	нейронні мережі
dc.subject	quantized operations
dc.subject	matrix multiplication
dc.subject	transformers
dc.subject	large language models
dc.subject	CUDA
dc.subject	GPU
dc.subject	LLM
dc.subject	PyTorch
dc.subject	neural networks
dc.title	Оптимізація множення квантованих однобітних матриць для великих мовних моделей
dc.title.alternative	Optimization of 1-bit quantized matrix multiplication for large language models
dc.type	Article

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: SUNZ_2025_3_Salnikov_Optymizatsiia_mnozhennia.pdf
Розмір:: 771.69 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 11.15 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

Кафедра "Автоматика та управління в технічних системах"