Сам себе интеллект
«Яндекс» и МТС разошлись в способах оценки ИИ
Активно развивающийся рынок искусственного интеллекта начинает сталкиваться с проблемами, характерными для развитых отраслей, например, выбора адекватной методики оценки эффективности. Российские разработчики больших языковых моделей (используются, в частности, для создания голосовых ассистентов) выбрали разные инструменты для публичного сравнения с другими разработками. Так, экспериментальная версия YandexGPT оценивается путем парного сравнения на «чатбот-арене», а модели MTS AI — путем решения заранее определенных задач. Участники рынка указывают на возможность использования разных бенчмарков эффективности для разных вопросов.
Фото: Александр Миридонов, Коммерсантъ
В «Яндексе» “Ъ” рассказали, что предоставляют на русскоязычной платформе для оценки качества больших языковых моделей LLM Arena (создана бывшим техдиректором компании по разметке данных Training Data Романом Куцевым) доступ к своей экспериментальной модели YandexGPT. Сервис работает по принципу «чатбот-арены» — пользователям сервиса предлагается сравнить результат работы двух моделей и выбрать лучший, а на основе полученных оценок формируется рейтинг нейросетей.
LLM — нейросетевая модель, предназначенная для работы с текстовыми данными: генерирования текста, классификации, создания краткого пересказа. Российские разработчики LLM используют их для расширения функциональности потребительских сервисов (поиска, голосовых ассистентов и т.п.), а также предлагают другим компаниям для интеграции в их сервисы.
«Участие в арене — это возможность проверить обновленную нейросеть в реальных условиях на запросах пользователей перед интеграцией в продукты или предоставления доступа по API (для интеграции в сервисы других разработчиков.— “Ъ”)»,— говорят в «Яндексе». Выбор именно такого способа сравнения там обосновали тем, что в участии используются оценки множества пользователей: «Кроме того, среди тестировщиков моделей на аренах много специалистов по машинному обучению, которые могут задавать более сложные, специфические запросы».
Исследователи в области искусственного интеллекта (ИИ) уже предпринимали попытки создать способ сравнения русскоязычных LLM. В 2023 году под эгидой Альянса в сфере ИИ (объединяет «Яндекс», VK, Сбербанк, «Газпром-нефть», «Уралхим» и др.) был создан бенчмарк MERA, работающий по другому принципу — оценки навыков в соответствии с фиксированными инструкциями. Модели «Яндекса» не представлены в публичной таблице лидеров MERA. В компании не объяснили, с чем связано решение не участвовать в MERA, но сказали, что «продолжают использовать популярные бенчмарки», а также создали собственную версию международного бенчмарка MMLU.
Модели еще одной российской компании, MTS AI, представлены, наоборот, в MERA, но не в LLM Arena. В МТС (MOEX: MTSS) объяснили это тем, что последняя платформа больше рассчитана на тестирование кейсов из потребительского сектора, а модели MTS AI рассчитаны на корпоративный. Модели Сбербанка представлены и на MERA, и на LLM Arena (в Сбербанке не ответили “Ъ”).
378 тысяч патентов по ИИ
было выдано в Китае по итогам 2023 года, рост по сравнению с 2022-м составил 40 процентов.
В Альянсе по развитию ИИ заявили, что бенчмарки и арены «некорректно сравнивать напрямую». В качестве доводов за использование бенчмарков в альянсе отметили то, что они позволяют проверять качество ответов на заранее известные вопросы разной сложности и тематики: «Однако для справедливой оценки модели полезно использовать несколько бенчмарков».
В области оценки LLM по качеству решения задач на русском языке «наблюдается некоторая неразбериха», признает директор по продуктам Just AI Глеб Обломский. По его словам, бенчмарк MERA «достаточно представительный по задачам и наборам данных, но совершенно непредставительный по участникам — в таблице лидеров нет разработок от ведущих мировых игроков вроде OpenAI и Anthropic». При этом он отметил, что компаниям не стоит в принципе оценивать пригодность моделей для конкретного решения на основе бенчмарков: «С точки зрения бизнеса, сравнение должно проводиться на основе метрик качества конкретного продукта».