Индустрия синтеза голоса и речи быстро растет и развивается, и ее объемы уже превышают $1 млрд. Широкие возможности применения таких технологий очевидны: голосовые помощники, говорящие роботы, радио- и телепрограммы, озвучивание книг и фильмов голосами известных людей, восстановление голосов тех, кто умер или лишился возможности говорить и т. п. В последние два года в условиях пандемии разработки в этой области заметно активизировались.
Развитие технологий синтеза речи вскоре позволит услышать, как говорят роботы
Фото: Анатолий Жданов, Коммерсантъ
Технологии синтеза голоса существуют давно, однако до начала 2010-х годов такие голоса звучали механически. С развитием технологий и ИИ появилась возможность буквально разложить человеческий голос «на атомы», ухватить все его характеристики и нюансы и создать голос, который не принадлежит человеку, но звучит абсолютно по-человечески, а также синтезировать голоса конкретных людей.
Специалисты по синтезу (клонированию) человеческого голоса объясняют, что научить компьютер говорить как человек, совсем непросто: у человеческого голоса много разных характеристик. «Чтобы проанализировать человеческий голос, необходимо очень много знать об акустике, принципах звучания речи, нужно понимать физиологические аспекты,— объясняет почетный профессор психологии эмоций Университета Женевы Клаус Шерер.— Так что этот процесс всегда обязательно затрагивает разные дисциплины, и он требует многого в том плане, что необходимо многое освоить, чтобы добиться чего-то путного».
При клонировании голоса конкретного человека специалисты берут образцы его речи.
Если требуется клонировать голос живого человека, ему дают начитывать большое количество самых разных текстов, при чтении которых человек сможет продемонстрировать голосом разные эмоции, менять интонацию, делать паузы и т. п.
Всего должно быть записано около часа такого чтения, а для процесса клонирования будут взяты 10–15 минут записи.
Эти записи загружаются в нейросеть, которая затем генерирует голос с учетом всех возможных нюансов. На весь процесс уходит меньше недели. На выходе получается голос, практически неотличимый от оригинала. Им можно произнести любой текст, который будет введен в программу. А значит, полученный голос можно использовать для чтения аудиокниг, изложения новостей, объявлений, для программы-будильника, которая этим голосом будет будить человека, для озвучивания видеоигр и любого текстового контента, и очень много где еще.
Если клонируется голос уже умершего человека, то процедура будет той же самой. Так, например, клонированный голос известного американского шеф-повара, писателя и телеведущего Энтони Бурдена, покончившего с собой в 2018 году, использовался для документального фильма о нем «Roadrunner», вышедшего минувшим летом. Для воссоздания голоса Бурдена режиссер Морган Невилл собрал десятки тысяч часов видео- и аудиозаписей. На основании этого объема данных был воссоздан голос шеф-повара, которым в фильме произносятся несколько фраз.
Премьера вызвала неоднозначную реакцию: кто-то счел безнравственным использовать голос Бурдена для произнесения того, чего он при жизни не говорил.
Впрочем, хоть Энтони Бурден при жизни этих фраз и не произносил, он их написал.
В числе недавних успехов индустрии можно назвать и «возвращение голоса» известному актеру Вэлу Килмеру. В 2015 году у актера обнаружили рак горла, и после двух лет химиотерапии и трахеостомии он практически лишился голоса. Минувшим летом с помощью технологий ИИ компания Sonantic воссоздала голос актера. И этим голосом он рассказал о своей болезни, ее последствиях и о том, что, несмотря на эту потерю, остается тем же самым творческим человеком, который постоянно что-то придумывает и полон идей. «Теперь я снова могу выразить себя,— говорит Вэл Килмер в этом видео.— Я могу показать вам мои мечты и снова открыть вам эту часть меня самого. Часть, которая никуда на самом деле не пропадала — она просто пряталась».
Как отмечают специалисты, клонирование голоса помогло бы, например, режиссерам при озвучивании фильмов и сэкономило время актерам, которым бы не пришлось подолгу сидеть в студии. Было бы полезно клонирование и в тех случаях, когда актер умер в процессе создания фильма или не может довести до конца проект, но есть возможность использовать его голос.
Специалисты прогнозируют, что уже скоро появится широкий выбор услуг по аренде клонированных голосов, когда известные люди смогут «сдавать» свои голоса для озвучивания какого-то контента, и это будет еще один неплохой источник дохода для знаменитостей.
Недолго ждать и того времени, когда этой технологией сможет воспользоваться рядовой потребитель. Например, появится приложение, которое будет читать ребенку книжку голосом его мамы, папы, бабушки. В видеоиграх, например, игроки смогут наделять героев своими голосами.
Сейчас в процессе клонирования голоса для какой-то определенной цели специалисты не всегда используют все собранные эмоции и интонации конкретного голоса. Как пояснил порталу NPR основатель и глава компании Speech Morphing Фати Ясса, «выбор зависит от того, где будет использоваться этот голос. Если в сфере банкинга, то это одно, а чтение электронных книг — совсем другое, и все это отличается от голоса, которым читается репортаж или которым общаются с потребителем». При воссоздании голоса, по словам господина Яссы, можно сделать так, чтобы его тон был извиняющимся или бодро рекламным, а можно и так, чтобы казалось, будто обладатель этого голоса — актер на сцене театра. Правда, говорят специалисты, петь клонированные голоса пока не научились. Но только пока.
Между тем есть ситуации, когда слишком по-человечески звучащий клонированный голос совсем не нужен.
Например, если этот голос встроен в голосовой помощник, который помогает пожилому человеку справиться с одиночеством, или читает аудиокнигу ребенку, тогда чем более естественным он будет, тем лучше — но, если таким человеческим голосом вдруг заговорит «умный» холодильник, ощущения могут быть не из приятных. «Тут лучше использовать более роботизированный голос,— говорит дизайнер Эми Хименес Маркес, которая в течение четырех лет работала над голосовым помощником Alexa компании Amazon.— Для подобных случаев можно просто создать голос с некоторым металлическим звучанием, как у настоящего робота. Все-таки такой голос больше подойдет холодильнику».
Учитывая столь широкие возможности применения технологии, рынок клонирования голоса растет довольно быстро. Если в 2018 году его объем оценивался в $456 млн, то к 2020-му размер рынка удвоился, а к 2028 году, по разным прогнозам, он может достичь почти $5 млрд при ежегодном росте на 24–30%. Занимаются этим уже десятки компаний по всему миру, начиная с крупных, таких как Google или IBM, и заканчивая небольшими, специализирующимися только на одной этой технологии, такими как Descript, Veritone, Respeecher и др.
Благодаря широким возможностям применения и постоянному совершенствованию технологии клонирования голоса ее в последнее время все чаще применяют мошенники.
Первый случай использования клонированного голоса для преступления произошел в марте 2019 года.
Мошенники, сгенерировав голос директора германской энергетической компании, позвонили директору британского подразделения этой компании и попросили перевести $243 тыс. якобы венгерскому поставщику. Перевод был успешно осуществлен, деньги пошли сначала в Венгрию, потом в Мексику, а затем по нескольким другим адресам. Личности тех мошенников раскрыты не были.
А в январе 2020 года похожим образом удалось вывести уже $35 млн из нескольких структур в ОАЭ и перевести их частями в банки нескольких стран мира, включая США. По данным Forbes, в ходе расследования власти ОАЭ обращались за помощью в том числе к США. Детали обоих расследований не раскрываются, имена, а также названия пострадавших компаний и банков не указываются.