Искусственный интеллект
Как имплантат позволяет говорить человеку после инсульта
«Как вам мой искусственный голос?» — спрашивает женщина на экране компьютера. Ее зеленые глаза слегка расширяются. Изображение явно синтезировано, голос то и дело прерывается, но это замечательный момент.
«Говорящее» изображение — цифровой аватар женщины, потерявшей способность говорить после инсульта, случившегося 18 лет назад. Идет эксперимент, в котором при помощи мозгового имплантата и алгоритмов искусственного интеллекта лишенная голоса больная имеет возможность говорить и даже сопровождать слова небогатой, но все-таки мимикой.
«Женщина» на экране способна говорить со скоростью примерно 60–70 слов в минуту. Это примерно в два раза медленнее, чем обычная речь, но более чем в четыре раза быстрее предыдущих достижений. Группа Эдварда Чанга, нейрохирурга из Калифорнийского университета в Сан-Франциско, фиксирует сигналы мозга, управляющие мимическими мышцами, это и позволило им создать аватар, который «представляет» больную.
Чанг и его команда работают над этой проблемой уже более десяти лет. Но только в 2021 году им удалось добиться того, что активность мозга человека, перенесшего инсульт, дешифруется в письменную речь, а затем пусть и медленно, но воспроизводится искусственным голосом. В последней работе команда использовала более крупный имплантат с удвоенным количеством электродов, устройство размером с кредитную карту.
Имплантат не записывает мысли, он улавливает электрические сигналы, которые руководят (в норме) движениями мышц губ, языка, челюсти и голосового аппарата — то есть всеми движениями, обеспечивающими речь. Порт, расположенный на коже головы, позволяет передавать эти сигналы на компьютер, где алгоритмы искусственного интеллекта декодируют их, а языковая модель помогает обеспечить автокоррекцию для повышения точности считывания речи. Эта технология и позволила переводить мозговую активность в письменную речь со скоростью 78 слов в минуту, используя словарный запас из 1024 слов. Правда, ошибочная дешифровка составила 23%. После этого слова мог «прочесть» искусственный голос.
Следом группе Чанга также удалось декодировать сигналы мозга уже непосредственно в речь — первой в мире. Кроме того, группе удалось перевести сигналы, предназначавшиеся для мимических мышц, в «выражения лица» аватара, в три разные эмоции: радость, грусть и удивление. «Речь — не только передача слов, но и то, кем мы являемся. Наши голос и выражения — важнейшая часть нашей идентичности»,— уверен Чанг. Команда использовала запись из свадебного видео больной, чтобы воспроизвести именно ее голос, так что аватар даже звучит похоже.
Пока, считают исследователи, это только доказательство того, что их концепция верна. Каждый случай уникален, и очень рано еще говорить, что проблема возвращения речи людям после инсульта решена. Но технически теперь понятно, каким может быть решение.
По материалам статьи Nature