Оптимізація множення квантованих однобітних матриць для великих мовних моделей

dc.contributor.authorСальніков, Дмитро Валентинович
dc.contributor.authorВасильченков, Олег Георгійович
dc.contributor.authorКараман, Дмитро Григорович
dc.date.accessioned2026-01-22T09:57:51Z
dc.date.issued2025
dc.description.abstractУ зв’язку з активним розвитком та вдосконаленням систем штучного інтелекту останнім часом обробка природної мови стала однією з найбільш актуальних та затребуваних задач. Засоби та алгоритми на базі великих мовних моделей, що забезпечують обробку природної мови та перетворення мови в текстові данні, активно застосовуються для реалізації методів автоматизації різноманітних повсякденних задач, а також систем обслуговування та оперативної взаємодії з людиною. Для швидкого та адекватного опрацювання природної мови, з врахуванням синтаксичних та національних особливостей необхідно використовувати досить складні мовні моделі. Але великі мовні моделі потребують значних обсягів пам’яті та обчислювальної потужності, що ускладнює їх повсякденне використання на пристроях з обмеженими ресурсами, таких як мобільні пристрої з автономним живленням, вбудовані системи та пристрої Інтернету речей. Таким чином, оптимізація алгоритмів роботи мовних моделей та зниження апаратних витрат на їх реалізацію є як ніколи актуальною задачею. Для пришвидшення виконання та зменшення необхідних об’ємів пам’яті використовують алгоритми квантування коефіцієнтів мовних моделей. В даній роботі сформульовано проблеми, що виникають під час виконання квантованих операцій множення матриць, розглянуто популярні підходи до реалізації алгоритму множення матриць на графічних прискорювачах, та реалізовано оптимізоване за швидкістю виконання ядро множення квантованих 1-бітних матриць.
dc.description.abstractWith the rapid development and improvement of artificial intelligence systems, natural language processing has recently become one of the most relevant and in-demand tasks. Tools and algorithms based on large language models (LLMs) that enable natural language processing and speech-to-text conversion are actively used for automating various everyday tasks, as well as for service systems and real-time human interaction. Efficient and accurate natural language processing, taking into account syntactic and linguistic peculiarities, requires highly complex language models. However, large language models demand significant memory and computational resources, making their widespread use challenging on resource-constrained devices such as battery-powered mobile devices, embedded systems, and Internet of Things (IoT) devices. Thus, optimizing language model algorithms and reducing hardware costs for their deployment is an increasingly pressing issue. To accelerate execution and minimize memory requirements, quantization algorithms for language model parameters are employed. This work formulates key challenges associated with performing quantized matrix multiplication operations, explores popular approaches to implementing matrix multiplication algorithms on GPUs, and presents an optimized high-performance kernel for 1-bit quantized matrix multiplication.
dc.identifier.citationСальніков Д. В. Оптимізація множення квантованих однобітних матриць для великих мовних моделей / Д. В. Сальніков, О. Г. Васильченков, Д. Г. Караман // Системи управління, навігації та зв'язку = Control, navigation and communication systems : зб. наук. пр. / гол. ред. В. В. Косенко ; Полт. нац. техн. ун-т ім. Юрія Кондратюка. – Полтава : ПНТУ, 2025. – Вип. 3 (81). – С. 136-141.
dc.identifier.doihttps://doi.org/10.26906/SUNZ.2025.3.136-141
dc.identifier.orcidhttps://orcid.org/0009-0007-6201-5370
dc.identifier.orcidhttps://orcid.org/0000-0002-0969-2248
dc.identifier.orcidhttps://orcid.org/0000-0002-7252-3172
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/97818
dc.language.isouk
dc.publisherНаціональний університет “Полтавська політехніка імені Юрія Кондратюка”
dc.subjectквантовані операції
dc.subjectмноження матриць
dc.subjectтрансформери
dc.subjectвеликі мовні моделі
dc.subjectCUDA
dc.subjectGPU
dc.subjectLLM
dc.subjectPytorch
dc.subjectнейронні мережі
dc.subjectquantized operations
dc.subjectmatrix multiplication
dc.subjecttransformers
dc.subjectlarge language models
dc.subjectCUDA
dc.subjectGPU
dc.subjectLLM
dc.subjectPyTorch
dc.subjectneural networks
dc.titleОптимізація множення квантованих однобітних матриць для великих мовних моделей
dc.title.alternativeOptimization of 1-bit quantized matrix multiplication for large language models
dc.typeArticle

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
SUNZ_2025_3_Salnikov_Optymizatsiia_mnozhennia.pdf
Розмір:
771.69 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
11.15 KB
Формат:
Item-specific license agreed upon to submission
Опис: