Корпорация «Дипфейк»
Как бизнес использует голосовые ИИ-копии
Компании во всем мире используют голосовые дипфейки в рекламных целях, подкастах или в индустрии развлечений, когда необходимо, например, скопировать голос той или иной звезды. Однако массовое распространение этой технологии несет серьезные риски как для бизнеса, так и для пользователей. «Ъ-Review» разбирался, как отличить мошеннические аудиокопии от рекламных интеграций.
Зловещие клоны
Дипфейк — это технология, позволяющая генерировать лица и голоса реальных людей. С ее помощью создаются фейковые аудио или видеоролики. Считается, что впервые дипфейки появились в 2017 году. Тогда один из пользователей форума Reddit с ником Deepfakes начал размещать сгенерированные порноролики с известными актерами — Тейлор Свифт, Скарлет Йоханссон, Галь Гадот. В 2023 году, по данным компании Home Security Heroes, 98% дипфейков приходилось на порнографические ролики. Всего в cети было выявлено 280 тыс. таких видео.
Голосовые дипфейки — более редкое явление. Чаще всего аудиодипфейки, как и обычные дипфейки, создают с помощью генеративно-состязательных сетей (GAN). По словам директора по продуктам компании Just AI Глеба Обломского, такая сеть состоит из двух частей: генератора и дискриминатора. Одна модель генерирует на основе загруженных в нее аудиофайлов новые записи голосов. Другая пытается определить, насколько они правдоподобны.
Дипфейк будет лучше, если для его генерации собрано максимальное число данных. Нужны голоса с разными интонациями, речь, которую будет анализировать алгоритм, должна быть максимально длинной. После обучения дипфейка разработчики оценивают результаты работы, проводят валидацию, рассказывает руководитель направления «Компьютерное зрение» компании «Наносемантика» Виктория Верезубова.
После этого модель, успешно обучившую дипфейк, можно разместить в приложении или более сложной системе для генерации дипфейков. Так делают сегодня многие стартапы. Например, готовые модели для генерации голосовых дипфейков предлагает канадский проект Resemble AI, американский стартап Descript и шотландцы Cereproc. Пользователям достаточно записать свой голос, стараясь избегать оговорок, и загрузить файл на обработку. Настоящую революцию на этом рынке произвел Microsoft. В прошлом году компания объявила о создании проекта VALL-E. Алгоритм может по записи голоса всего в три секунды создать аудиодипфейк. Данный инструмент может даже воспроизвести тембр и эмоциональный окрас речи.
Вместе с тем компании сегодня неохотно берут на вооружение аудиодипфейки. Все дело в негативном информационном фоне вокруг технологии. «Данная технология создана для обмана, и перспектив в бизнесе у нее не так много»,— считает ведущий инженер IT-компании CorpSoft24 Михаил Сергеев.
Тем не менее проекты, занимающиеся разработкой дипфейков, есть. Например, в 2021 году компания Veritone открыла сервис Marvek.ai для создания и монетизации голосовых дипфейков. Там звезды могут разрешать компаниям-клиентам использовать их дипфейки — например, в рекламных роликах.
В прошлом году польская игровая компания CD Projekt Red использовала аудиодипфейк умершего актера Милогоста Речека в дополнении к игре Cyberpunk 2077. А компания ElevanLabs, занимающаяся разработкой речевого искусственного интеллекта, недавно представила функцию AI Dubbing. С ее помощью можно перевести разговор на другой язык, сохраняя эмоции и интонации говорящего.
В России аудиодипфейки редко используются бизнесом. Опрошенные «Ъ-Review» разработчики заявили, что им неизвестно о таких проектах. Как правило, аудиодипфейки нужны для озвучки каких-то героев в кино. Также аудиодипфейки могут использоваться в IT-секторе при проведении пентестов — испытаний на уязвимости.
Как рассказал «Ъ-Review» CEO агентства, занимающегося разработкой дипфейков, Agenda Media Group Алексей Парфун, клиентов, заказывающих дипфейки, как правило, немного. «Чаще всего они просят создать видеодипфейки. Они стоят от 300 тыс. руб. до 1 млн руб. за минуту видео. Стоимость зависит от того, будут ли в видео статичные кадры или какие-то действия — прыжки, взрывы и т. п.»,— отмечает господин Парфун. Такие дипфейки чаще всего нужны как раз для кинофильмов.
Оживающие знаменитости
В будущем голосовые дипфейки будут использовать еще активнее. Для персональных корпоративных поздравлений, в подкастах для имитации голосов известных людей, все в том же кино, считают участники рынка. Алексей Парфун уверен, что дипфейки имеют будущее в сфере образования. Студентам для лучшего усвоения какого-то материала могут транслировать лекцию, записанную голосом давно умершего известного ученого. В киноиндустрии аудиодипфейки могут помочь актерам разговаривать на разных языках. Так, фильмы можно будет выпускать одновременно на 15 языках, и на каждом герои будут говорить своими голосами и со своими интонациями, отмечает г-н Парфун. Также эту технологию можно использовать и на телевидении, добавляет он.
По словам эксперта по кибербезопасности Axenix Евгения Качурова, также дипфейки в будущем станут чаще появляться и в рекламе. «Представьте своего кумира детства, который уже давно не участвует в съемках, но все так же разговаривает с вами тем же голосом, что и раньше»,— говорит он. Есть перспективы у дипфейков и в маркетинге. Они могут помогать создавать персонализированные кампании, где каждая реклама адаптируется под конкретного клиента. «Например, известный актер рекламирует разные продукты для разных групп людей»,— добавляет Виктория Верезубова.
Кроме того, аудиодипфейки можно использовать для защиты личных данных. Например, существуют технологии, способные определить по речи начинающуюся деменцию. Однако такие аудиофайлы с голосом пациента надо где-то хранить, при этом возможны утечки, аудиодипфейки позволяют зашифровать эти показания.
Сходства и различия
Среди мошенников популярны сегодня несколько схем обмана с помощью аудиодипфейков. Например, схема fake boss. Преступники создают аудиодипфейк речи начальника и рассылают его через фейковые аккаунты с его фотографиями в мессенджере. Бывают случаи, когда мошенники представляются каким-нибудь известным коучем. Они продвигают свою систему заработка, где надо прикладывать минимум усилий. Например, продают доступ к «сверхумным» торговым роботам для игры на бирже. Чтобы получить его, надо ввести свой телефон и почту. Таким образом, персональные данные оказываются в руках преступников.
По данным ученых из Университетского колледжа Лондона, человек не способен отличить до 25–27% звуковых дипфейков. Именно на это и делают расчет преступники. По словам руководителя департамента Digital Risk Protection компании F.A.C.C.T. Станислава Гончарова, отличить дипфейки, создаваемые бизнесом, от мошеннических может быть сложно. Все дело в том, что никаких специальных мошеннических дипфейков просто нет. «Все решения сейчас построены на одних и тех же библиотеках данных и моделях. Мошенники для создания дипфейков, как правило, используют open source инструменты, доступные каждому»,— объясняет эксперт.
Бизнес может создавать более качественные дипфейки. Но только благодаря более профессиональному постпродакшену, компьютерной обработке. Отличить дипфейки мошенников можно по роботизированному звуку, кроме того, они распространяются через сомнительные источники или личные сообщения, поясняет руководитель продуктового направления ИБ-компании Innostage Евгений Федоров. Руководитель направления сервисов защиты облачного провайдера Nubes Александр Быков говорит, что дипфейки же от корпораций направлены только на рекламу товаров или услуг: «Они не пытаются запутать пользователя, нацелены лишь на привлечение внимания. В то время как дипфейки от мошенников сразу же побуждают что-то делать и акцентируют внимание на эмоциях».
В будущем мошенники могут модернизировать дипфейки, предупреждают эксперты по ИБ. Большую угрозу, по мнению Евгения Качурова, несет то, что мошенники могут научиться дезинформировать суды с помощью хорошо сгенерированных дипфейков. Поэтому уже сегодня надо прорабатывать возможность дополнительных судебных проверок аудио- и видеоматериалов на их подлинность, отмечает он.
Этот текст — часть нового проекта ИД «Коммерсантъ», посвященного трендам бизнеса и финансового рынка. Еще больше лонгридов с анализом ключевых отраслей российской экономики, экспертных интервью и авторских колонок — на странице Review.