И говорит как пишет

«Яндекс» разрабатывает единую нейросеть для речи и текста

«Яндекс» (MOEX: YNDX) нанимает сотрудников для работы над мультимодальной моделью SpeechGPT, которая, согласно описанию вакансии, должна будет воспринимать текст и звук и отвечать при их же помощи. Нейросетевые сервисы компании уже обрабатывают как речь, так и текст, но процесс происходит с преобразованием данных из одного вида в другой. Мультимодальные сети призваны улавливать детали, которые теряются при такой конвертации,— например, эмоции и сарказм.

«Яндекс» работает над еще не анонсированной нейросетевой моделью SpeechGPT и нанимает в соответствующую команду инженера в области машинного обучения, говорится в разделе вакансий компании. Речь идет о мультимодальной модели (то есть способной обрабатывать разные виды вводных данных), которая «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука». В «Яндексе» пояснили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах. На вопрос о модели SpeechGPT в компании не ответили.

Некоторые нейросетевые сервисы «Яндекса» уже позволяют принимать вводные данные разных видов. С ассистентом «Алиса» можно общаться как голосом, так и текстом; в декабре 2023 года компания сделала отдельный подраздел сайта с текстовым чатом (интервью с «Алисой» см. в “Ъ” от 31 мая). В последних числах мая «Яндекс» схожим образом расширил функциональность сервиса Yandex SpeechSense: изначально созданный для анализа работы колл-центров сервис получил возможность обрабатывать и текстовые сообщения. Возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро».

Но между мультимодальным пользовательским опытом и мультимодальностью самой модели есть разница, объясняет сооснователь Just AI Кирилл Петров.

В первом случае зачастую происходит перевод данных из одного вида в другой: «Например, в случае с голосовым ассистентом речь сначала одной моделью преобразовывается в текст, этот текст анализируется другой моделью, а третья модель преобразовывает текст ответа в речь. На каждом шаге происходит упрощение, а еще вся обработка занимает больше времени». Мультимодальные же модели вроде GPT-4o от OpenAI позволяют учитывать весь контент, причем без задержек.

«Яндексу», полагает господин Петров, критично вести разработки в этой области: «Именно в этих технологиях сегодня будущее развития ИИ и ассистентов, включая "Алису"».

Мультимодальные модели с поддержкой аудио, по словам гендиректора группы компаний ЦРТ Дмитрия Дырмовского, способны «распознавать речь на нескольких языках, разделять реплики дикторов, определять эмоции и сложные невербальные приемы, такие как ирония и сарказм». При этом они смогут снизить порог входа в речевые технологии:

«Они объединяют сразу несколько технологий и при этом используют тот же интерфейс, что и текстовые модели».

В Сбербанке сообщили, что обучают GigaChat вести мультимодальные диалоги, а в области мультимодальных моделей содействовали разработке модели OmniFusion от Института искусственного интеллекта AIRI: «В исследовании принимали участие ученые "Сбера" и SberDevices». В VK отказались от комментариев.

Почему искусственный интеллект требует все новых вычислительных ресурсов

MVP (минимально жизнеспособный продукт) SpeechGPT, вероятно, появится в ближайшие месяцы, «дальше пойдет процесс непрерывных улучшений», полагает эксперт в области ИИ и продвинутой аналитики компании Axenix Владимир Кравцев. Он полагает, что SpeechGPT будет прежде всего встраиваться в «уже существующие сервисы, связанные с каналами коммуникации с клиентами, партнерами "Яндекса", то есть будет происходить постепенная замена текущих более простых моделей на современные».

Однако разработка «Яндекса» едва ли будет сопоставима по возможностям с мультимодальными моделями от Google (семейства Gemini) или OpenAI, считает директор по продукту Hybrid Светлана Другова: «Для того чтобы создать модель, способную конкурировать с ними, потребуются миллиарды долларов. Но учитывая, что у "Яндекса" уже есть наработки, затраты будут несколько меньше».

Юрий Литвиненко

Меню сайта

«Коммерсантъ» для Android

И говорит как пишет

«Яндекс» разрабатывает единую нейросеть для речи и текста

Почему искусственный интеллект требует все новых вычислительных ресурсов

Зарегистрируйтесь или войдите, чтобы дочитать статью

Это бесплатно и вы сможете читать все закрытые статьи «Ъ»

02.04.2025

ГК «Солар»

«Солар» запустил сервис поставки данных об актуальных киберугрозах — Solar TI Feeds

02.04.2025

АО АКБ «НОВИКОМБАНК»

НОВИКОМ расширит льготную поддержку малого и среднего бизнеса

02.04.2025

ГК «Солар»

Акселератор ВТБ помог резидентам CyberStage представить свои решения банку

02.04.2025

STONE

В жилом комплексе STONE Sokolniki возводят надземную часть

Лента