Сам себе интеллект

«Яндекс» и МТС разошлись в способах оценки ИИ

Активно развивающийся рынок искусственного интеллекта начинает сталкиваться с проблемами, характерными для развитых отраслей, например, выбора адекватной методики оценки эффективности. Российские разработчики больших языковых моделей (используются, в частности, для создания голосовых ассистентов) выбрали разные инструменты для публичного сравнения с другими разработками. Так, экспериментальная версия YandexGPT оценивается путем парного сравнения на «чатбот-арене», а модели MTS AI — путем решения заранее определенных задач. Участники рынка указывают на возможность использования разных бенчмарков эффективности для разных вопросов.

В «Яндексе» “Ъ” рассказали, что предоставляют на русскоязычной платформе для оценки качества больших языковых моделей LLM Arena (создана бывшим техдиректором компании по разметке данных Training Data Романом Куцевым) доступ к своей экспериментальной модели YandexGPT. Сервис работает по принципу «чатбот-арены» — пользователям сервиса предлагается сравнить результат работы двух моделей и выбрать лучший, а на основе полученных оценок формируется рейтинг нейросетей.

LLM — нейросетевая модель, предназначенная для работы с текстовыми данными: генерирования текста, классификации, создания краткого пересказа. Российские разработчики LLM используют их для расширения функциональности потребительских сервисов (поиска, голосовых ассистентов и т.п.), а также предлагают другим компаниям для интеграции в их сервисы.

«Участие в арене — это возможность проверить обновленную нейросеть в реальных условиях на запросах пользователей перед интеграцией в продукты или предоставления доступа по API (для интеграции в сервисы других разработчиков.— “Ъ”)»,— говорят в «Яндексе». Выбор именно такого способа сравнения там обосновали тем, что в участии используются оценки множества пользователей: «Кроме того, среди тестировщиков моделей на аренах много специалистов по машинному обучению, которые могут задавать более сложные, специфические запросы».

Исследователи в области искусственного интеллекта (ИИ) уже предпринимали попытки создать способ сравнения русскоязычных LLM. В 2023 году под эгидой Альянса в сфере ИИ (объединяет «Яндекс», VK, Сбербанк, «Газпром-нефть», «Уралхим» и др.) был создан бенчмарк MERA, работающий по другому принципу — оценки навыков в соответствии с фиксированными инструкциями. Модели «Яндекса» не представлены в публичной таблице лидеров MERA. В компании не объяснили, с чем связано решение не участвовать в MERA, но сказали, что «продолжают использовать популярные бенчмарки», а также создали собственную версию международного бенчмарка MMLU.

Модели еще одной российской компании, MTS AI, представлены, наоборот, в MERA, но не в LLM Arena. В МТС (MOEX: MTSS) объяснили это тем, что последняя платформа больше рассчитана на тестирование кейсов из потребительского сектора, а модели MTS AI рассчитаны на корпоративный. Модели Сбербанка представлены и на MERA, и на LLM Arena (в Сбербанке не ответили “Ъ”).

378 тысяч патентов по ИИ

было выдано в Китае по итогам 2023 года, рост по сравнению с 2022-м составил 40 процентов.

В Альянсе по развитию ИИ заявили, что бенчмарки и арены «некорректно сравнивать напрямую». В качестве доводов за использование бенчмарков в альянсе отметили то, что они позволяют проверять качество ответов на заранее известные вопросы разной сложности и тематики: «Однако для справедливой оценки модели полезно использовать несколько бенчмарков».

В предложения по регулированию ИИ впишут европейский опыт и российские жалобы

В области оценки LLM по качеству решения задач на русском языке «наблюдается некоторая неразбериха», признает директор по продуктам Just AI Глеб Обломский. По его словам, бенчмарк MERA «достаточно представительный по задачам и наборам данных, но совершенно непредставительный по участникам — в таблице лидеров нет разработок от ведущих мировых игроков вроде OpenAI и Anthropic». При этом он отметил, что компаниям не стоит в принципе оценивать пригодность моделей для конкретного решения на основе бенчмарков: «С точки зрения бизнеса, сравнение должно проводиться на основе метрик качества конкретного продукта».

Юрий Литвиненко

Меню сайта

«Коммерсантъ» для Android

Сам себе интеллект

«Яндекс» и МТС разошлись в способах оценки ИИ

В предложения по регулированию ИИ впишут европейский опыт и российские жалобы

Зарегистрируйтесь или войдите, чтобы дочитать статью

Это бесплатно и вы сможете читать все закрытые статьи «Ъ»

24.04.2025

АО «Банк ДОМ.РФ»

Банк ДОМ.РФ запустил автоформирование кредитной документации после одобрения ипотеки

24.04.2025

АО «Почта России»

«Почта России» ускоряет выдачу посылок

24.04.2025

АО «Фармасинтез»

Полмиллиарда рублей планирует инвестировать Фармасинтез в развитие тюменского завода

23.04.2025

ООО «Серконс»

Новые правила экспертизы: что нужно знать застройщикам в 2025 году

Лента