Нейросети открыты для предложений
Корпорации идут к обнародованию своих языковых моделей
МТС выпускает нейросетевую модель (LLM) с открытым кодом и возможностью донастройки под бизнес-задачи. Российские разработчики больших языковых моделей, такие как «Сбер» и «Яндекс», специализируются на закрытых моделях, хотя точечно и открывают проекты. Участники рынка в целом приветствуют открытый подход к работе с кодом, но некоторые напоминают, что практичнее было бы открыть сообществу дата-сеты, на которых обучаются нейросети.
Фото: Евгений Павленко, Коммерсантъ
MTS AI (дочерняя компания МТС в области искусственного интеллекта, ИИ) выпустит большую языковую B2B-модель Cotype Nano, предназначенную для запуска непосредственно на персональных компьютерах и телефонах, рассказали “Ъ” в компании. Модель будет открытой: ее веса (параметры, которые используются ей для принятия решений) можно изучать и настраивать под конкретные задачи. «Яндекс» и «Сбер», разрабатывающие свои языковые модели YandexGPT и GigaChat, не публиковали их кодов.
В Cotype Nano от MTS AI использованы наработки другой свободной модели, Qwen 2.5 китайской Alibaba Cloud, а сама модель обучена на наборах данных, включающих программный код, математику и синтетические данные (созданные искусственно, но на основе имитации реальных процессов). С ее помощью можно генерировать тексты и переводы, а также разрабатывать собственные чат-боты. По официальной оценке, объем российского рынка ИИ в 2023 году составил 650 млрд руб. Ежегодный объем оказанных услуг по разработке и реализации решений в этой области к 2030 году должен вырасти до 60 млрд руб.
Крупные российские компании, разрабатывающие свои большие языковые модели для бизнеса, до сих пор выпускали на рынок лишь проприетарные продукты — то есть с закрытым кодом без возможности создавать производные проекты.
Обычно такие модели работают в облачной инфраструктуре компании-разработчика, а доступ к ним предоставляется с помощью программного интерфейса (API), то есть посредством запросов к серверу (см. “Ъ” от 7 декабря 2023 года).
При этом компании публикуют как свободное ПО другие инструменты, предназначенные для работы с нейросетями: например, «Яндекс» — библиотеку YaFSDP для ускорения их обучения. В ноябре источники Forbes сообщили о намерении VK опубликовать ИИ-модели, в частности, для синтеза речи. «Мы также думаем над возможностью выложить открытый код нашей большой языковой модели YandexGPT»,— сказали “Ъ” в «Яндексе». В «Сбере» отметили, что предоставляют открытый доступ к моделям линеек Kandinsky (используются для генерации изображений) и GigaAM (для обработки речи): «Планируем и дальше открывать наши технологии». В VK отказались от комментариев.
«"Сбер" и "Яндекс" разрабатывают свои модели, потому что в стране есть спрос и рынок на российские LLM из-за импортозамещения и санкционных ограничений»,— говорит директор по продуктам Just AI Глеб Обломский. Но пока им далеко не всегда получается «дотянуться по качеству» до зарубежных моделей: сказывается ограниченность ресурсов, отмечает он.
Максут Шадаев, глава Минцифры, в апреле (цитата по ТАСС):
«Очень сложная задача — повсеместное внедрение технологий ИИ, комплексная и большая».
Разработка проприетарных моделей позволяет компаниям сохранять контроль над своей интеллектуальной собственностью, говорит старший программист-разработчик лаборатории нейронных систем и глубокого обучения МФТИ Джоксан Асокар: «Это может дать им конкурентное преимущество». С другой стороны, цель открытых разработок — в создании более широкого сообщества, которое может активно участвовать в улучшении модели, считает эксперт.
Но собеседник “Ъ” в крупной IT-компании напоминает, что основной вопрос в востребованности языковой модели кем-либо. «B2B-игрокам проще взять что-то более крупное по количеству параметров и дообучить самому»,— считает он. А конечным пользователям важен удобный интерфейс. «Гораздо полезнее было бы открыть сообществу дата-сеты, на которых обучалась модель, если они действительно качественные»,— заключает собеседник “Ъ”.