Перспективи застосування гібридного адаптивного скорочення рангу для оптимізації великих мовних моделей на мобільних пристроях
Короткий опис(реферат)
У роботі розглянуто метод гібридного адаптивного скорочення рангу (HARR) як
новітній підхід до оптимізації великих мовних моделей (LLM) для мобільних пристроїв. Метод
базується на поєднанні технік Low-Rank Adaptation (LoRA) та прунингу, що дозволяє ефективно
адаптувати моделі під обмежені ресурси мобільних платформ, таких як обсяг пам’яті та
потужність процесора. Впровадження HARR забезпечує зменшення обсягу моделей без втрати
точності, сприяє підвищенню енергоефективності та швидкодії додатків на основі великих мовних
моделей.