«Нейронные сети можно адаптировать под задачи многих индустрий»

Вице-президент, директор департамента развития технологий ИИ и машинного обучения Сбербанка Максим Еременко — в программе «Цели и средства»

Рынок искусственного интеллекта стремительно развивается. Какие направления можно считать наиболее перспективными? Почему бизнес сегодня стремится создавать собственные генеративные нейросети? И что может нейросеть Kandinsky 2.2? Об этом обозреватель “Ъ FM” Александр Леви побеседовал с вице-президентом, директором департамента развития технологий ИИ и машинного обучения Сбербанка Максимом Еременко.

Фото: Пресс-служба «Сбербанка»

Фото: Пресс-служба «Сбербанка»

— Сегодня «Сбер» наряду со многими мировыми технологическими компаниями активно развивает и инвестирует в искусственный интеллект. В этом году вы представили уже две версии генеративной нейросети Kandinsky. Чем они отличаются?

— Здесь два основных параметра. Первый — это качество генерации. Kandinsky — нейросеть, которая может за несколько секунд сгенерировать по текстовому запросу изображение, это ее базовый навык. Но мы ориентируемся и на международные бенч-марки, а там сейчас наиболее качественной сетью является Midjourney. Многие специалисты индустрии дизайна используют ее для работы с изображениями, с генеративным контентом. И мы развиваем именно качество генерации исходных картинок.

Но при этом есть несколько базовых навыков, новых возможностей, которые развиваются параллельно с этим. Это умение рисовать более чем в 20 стилях, смешивать несколько изображений, смешивать рисунок и текстовый запрос, когда ты просишь поправить что-то текстом на исходном изображении и доработать его. И сейчас есть несколько профессиональных фишек подобного рода у генеративных сетей, в том числе и в Kandinsky они реализованы, это так называемый inpainting (дорисовка недостающей части картинки — прим. ред.) и outpainting (создание изображений в режиме бесконечного полотна — прим. ред.). Ты просишь сетку достроить окружение вокруг картинки либо встроить в картинку какой-то новый образ.

— Вы уже упомянули индустрию дизайна. А какие дополнительные возможности открывают генеративные нейросети для бизнеса? Зачем вообще компаниям создавать свои?

— Пожалуй, дизайн был первой сферой, где специалисты нашли применение нейронным сетям, но далеко не единственной. После того как известные генеративные модели были встроены как плагин в графические редакторы, такие как Photoshop и так далее, мы увидели попытки адаптировать эти нейронные сети под задачи многих индустрий, например, систем автопроектирования. Сейчас, допустим, в архитектурном дизайне некоторые решения уже имеют встроенные сети. Они позволяют достаточно быстро сгенерировать большое количество возможных образов по определенным запросам. Это экономит время дизайнера, потому что у него появляется ассортимент, из которого он может выбрать и быстро подставить тот или иной архитектурный элемент в готовый проект. Есть применение сетей и в промышленном дизайне, когда кузова автомобилей или какие-то элементы силовых установок генерируются в системах проектирования с помощью таких моделей.

— Первый всплеск ажиотажа вокруг генерации картинок мы как будто бы прошли. Сейчас потребительское внимание немножко смещается в сторону видео. Видите ли вы необходимость двигаться в этом направлении? Какой профит это может принести?

— Мы точно видим в этом необходимость. С видео все сложнее, чем с картинками. Если взять разные версии моделей или модели от разных компаний, то на один и тот же текстовый запрос они могут генерировать совершенно разные изображения. И с видео так же — один или несколько кадров могут продолжиться совершенно разными способами. Поэтому инженерная сложность увеличивается, она связана в том числе с вычислительной емкостью, для этого требуется гораздо больший ресурс. С другой стороны, необходима так называемая сериализация картинок и изображений, потому что ты работаешь с достаточно большим набором кадров и данных. И пока что все это выглядит не очень приглядно для профессиональных дизайнеров. На данный момент качество работы видеогенерации примерно такое же, как у моделей по генерации изображений пару лет назад. Но это вопрос времени. Я думаю, через полгода-год мы увидим совершенно другой уровень качества генерации.

— Какие-то границы или условия применения нейросетей задает все-таки человек, и есть опасения по поводу создания недопустимых материалов или даже запрещенных. Как этого избежать и как конкретно «Сбер» работает в этом направлении?

— Действительно, это важный для нас вопрос. Мы прилагаем большие усилия, чтобы обезопасить пользователя от генерации того контента, который, скорее всего, он не захочет видеть. Понятно, что недопустима генерация контента определенного типа, самый простой пример — это «18+». Помимо этого, есть еще темы, связанные с религиями, национальными символами и так далее. То есть надо развивать эти технологии, но при этом выстраивать систему проверок и фильтров. Как правило, они начинаются с самых простых, основанных на так называемых регулярных выражениях. В таком случае ты просто текстом, какой-то логикой на уровне программного кода говоришь модели, что генерировать точно не надо. Есть и более сложные фильтры, например, обучение модели-цензора, которая подсказывает основной модели, какой контент может быть потенциально девиантным, нехорошим. Поэтому здесь надо разговаривать с сетью терминами в стиле «что такое хорошо и что такое плохо».

— Какие ключевые тренды по развитию искусственного интеллекта вы бы обозначили на ближайшие пять лет?

— Во-первых, это мультимодальность, когда одна и та же архитектура может работать одновременно с сигналами разных типов — текстами, изображениями, речевыми фонограммами, спектрограммами. На выходе модель может генерировать данные разных типов, допустим, обычную либо аннотированную картинку. Сеть могут попросить объяснить, что происходит на фотографии, она может интерпретировать это и так далее.

Во-вторых, мультиагентность — это полезное и приятное свойство, когда несколько сеток, натренированных с некоторой спецификой, вместе дают лучший результат, при условии правильной оркестрации, чем каждая по отдельности. Простейший пример — телевизионная игра «Что? Где? Когда?». Шесть знатоков против телезрителей, у каждого есть своя специализация, опыт, какие-то уникальные знания. При этом капитан команды вовремя должен принять решение о передаче слова правильному знатоку. Здесь примерно то же самое.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...