В Казахстане представлена языковая модель KAZ-LLM. Она создана в партнерстве с Beeline Казахстан и QazCode

25 декабря 2024

фото: https://www.zakon.kz/tekhno/6459717-v-kazakhstane-predstavlena-yazykovaya-model-KAZLLM-ona-sozdana-v-partnerstve-s-Beeline-kazakhstan-i-QazCode.html

В последние годы в области генеративного искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), наблюдается значительный прогресс. Модели, такие как GPT-4, LLaMA и Gemini, установили новые стандарты, продемонстрировав впечатляющие уровни сложности и функционала.

Однако подобные достижения в основном охватывают языки с высоким уровнем доступности, такие как английский, китайский, японский и русский. Недостаток ресурсов для других языков создает языковой разрыв в ИИ, что влияет на качество пользовательского опыта, усиливает предвзятость и способствует цифровому неравенству.

11 декабря в Астане президенту Казахстана Касым-Жомарту Токаеву была представлена национальная языковая модель KAZ-LLM. Модель была разработана под руководством Института умных систем и искусственного интеллекта (ISSAI NU) в партнерстве с Beeline Казахстан и его ИТ-компанией QazCode, а также Astana Hub. Проект координируется Министерством цифрового развития, инноваций и аэрокосмической промышленности РК (МЦРИАП РК). Модель имеет стратегическое значение для всей страны, поскольку решает проблему языкового разрыва с помощью ИИ.

Как разрабатывалась модель KAZ-LLM?

KAZ-LLM от ISSAI основана на 150 млрд токенов, тщательно собранных из общедоступных источников на четырех языках – казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность, обеспечивая улучшенное качество обработки текстов на различных языках и способствуя улучшению перевода. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Интерфейс и функциональность модели KAZ-LLM были разработаны с учетом самых передовых мировых стандартов, что подтверждает высокую технологическую зрелость и широкий потенциал модели. Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) – проверка научного мышления через вопросы с множественным выбором;
GSM8K – оценка способности решать задачи по математике для начальной школы;
HellaSwag – тестирование логики продолжения предложений;
MMLU (Massive Multitask Language Understanding) – проверка знаний по 57 различным предметам;
Winogrande – оценка здравого смысла в двусмысленных предложениях;
DROP – тестирование навыков понимания прочитанного и логического мышления.

Партнерство Beeline и QazCode ускорило разработку

Ключевыми партнерами в ее создании стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в формировании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. Поддержка в виде предоставленных серверов с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения и расширила возможности модели. Для сравнения: обычному компьютеру понадобится несколько дней, чтобы проанализировать архив из одного миллиона фотографий, в то время как восемь серверов DGX H100, использующихся для обучения ISSAI KAZ-LLM, справятся с этой задачей всего за несколько секунд.

На базе этих серверов разработчики обучили две версии модели – с 8,0 млрд и 70 млрд параметров, к процессу присоединились дата-сайентисты QazCode.

"Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка", – поделился СЕО QazCode Алексей Шаравар.

О результатах и перспективах KAZ-LLM

Исследователи отмечают, что проект – это важная веха на пути Казахстана на мировой арене искусственного интеллекта.

"Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с восемью миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках ", – рассказал директор ISSAI, профессор NU Хусейн Атакан Варол.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ. Также рассматривается добавление поддержки модели других тюркских языков, что позволит укрепить связи между тюркоязычными сообществами.

"В соответствии с инициативой главы государства KazLLM станет основой для создания более масштабного проекта – TurkLLM, направленного на развитие технологий обработки естественного языка в тюркоязычном пространстве. Соответствующее соглашение было подписано на прошедшем саммите ОТГ", – рассказал во время презентации Жаслан Мадиев, министр цифрового развития, инноваций и аэрокосмической промышленности РК.

Айсулу Омарова