«Сначала было слово, затем видео»
Александр Леви — о нейросети Sora
Обозреватель “Ъ FM” Александр Леви рассказывает о модели преобразования текста в видео Sora от компании OpenAI.
Фото: Игорь Иванко, Коммерсантъ
Поразительно и одновременно страшно, какое стремительное развитие получают некоторые технологии. Один из флагманов индустрии искусственного интеллекта компания OpenAI представила модель преобразования текста в видео — Sora.
На странице продукта авторы рассказали о его возможностях, принципах работы, безопасности и ближайших исследованиях. Но что самое интересное — привели десятки готовых результатов с описанием конкретных промтов (подсказок). Я избегаю эпитетов в превосходной степени, потому просто скажу, что это ошеломительно и потрясающе.
Да, Sora далеко не первая модель преобразующая текст в видео. Но, во-первых, она может создавать ролики длительностью до одной минуты! Счет на четыре, пять или восемь секунд больше не актуален. Это мнимое соревнование вышло на другой уровень. Во-вторых, качество. Sora справляется с довольно сложными сценами, в которых может быть несколько персонажей, особые типы движений или требоваться качественная детализация объектов или фона.
Как заверяют авторы, модель понимает не только то, о чем просит пользователь в подсказке, но и то, как эти вещи существуют в реальном физическом мире. В это утверждение легко поверить, если посмотреть на видео, где девушка прогуливается по ночному азиатскому мегаполису, в котором прошел дождь. Если прочитать промт, который более точен и обширен в постановке задачи, чем мое описание, то еще раз поражаешься, как здорово модель прорабатывает этот запрос.
Могу догадываться, что представленные результаты являются самыми лучшими, именно поэтому они и попали на промостраницу. Но эффект удивления меньше не становится. Конечно, у текущей версии Sora есть слабые места. Она может врать в моделировании физики, не знать или неправильно генерировать причинно-следственные связи, признаются разработчики. Например, у бегущего щенка лапы исчезают и вновь появляются. Или человек на видео откусывает печенье, а оно остается целым. Модель продолжают улучшать.
Для работы над кибер рисками пригласили так называемые «красные команды», которые будут имитировать злоупотребление технологией. Также компания планирует взаимодействовать с мировыми экспертами в области образования, политики и искусства.