Новая нейросеть от Microsoft может генерировать видео по одному изображению
Американская корпорация Microsoft представила новую нейросеть VASA-1, которая может создавать видео на основе одного изображения. Для использования нужно предоставить картинку и аудиодорожку, и алгоритм сгенерирует говорящего человека с естественной мимикой и широким спектром эмоций.
В представленном примере Microsoft заставила говорить, например, Мону Лизу, а главным отличием нейросети разработчики назвали целостную модель генерации движений головы и лицевой мимики. Согласно их подсчетам, новая нейросеть значительно превосходит ранее представленные аналоги. Видео доступно в разрешении 512 х 512 с частотой 40 кадров в секунду, есть небольшая начальная задержка.
В компании считают, что нейросеть поможет в создании реалистичных аватаров, имитирующих поведение человека во время разговора, однако не планируют в ближайшее время выпускать продукт на рынок из-за опасений, что он будет использоваться мошенниками для создания дипфейк-видео.