Новая паралингвистическая система позволит голосовому помощнику отвечать людям, даже если к ней не обратились по имени. Кроме того, ответы компьютера станут приближенными к человеческой речи за счет более естественного моделирования диалога. Это может изменить отношение человека к помощнику, уровень «интеллекта» которого, как показали эксперименты, воспринимается на уровне интеллекта ребенка. Исследования поддержаны грантом Российского научного фонда (РНФ).
Фото: РИА Новости
«Что касается диалогов “человек—машина”, то люди часто имеют некоторый негативный опыт в своей повседневной жизни. Поэтому они стараются приспосабливаться к ограничениям технических систем. Это приводит к более медленной и разборчивой речи с ограниченным словарным запасом»,— утверждает Алексей Карпов, руководитель проекта по гранту РНФ, доктор технических наук, главный научный сотрудник лаборатории речевых и многомодальных интерфейсов СПИИРАН.
Голосовые помощники, или cистемы речевого общения (Spoken Dialogue Systems, SDS), появились пару десятилетий назад и уже стали частью повседневной жизни. В последние годы был достигнут значительный прогресс в области SDS. Виртуальные голосовые помощники, например Siri от Apple, Assistant от Google, Cortana от Microsoft, Alexa от Amazon или «Алиса» от «Яндекса»,— типичные примеры современных SDS. За рубежом системы в виде умных колонок очень распространены и популярны, они встраиваются в разнообразные устройства и позволяют бесконтактно, голосом управлять практической любой бытовой техникой, например кофеваркой, кондиционером или системой освещения. В России же такая сфера применения искусственного интеллекта пока только зарождается и SDS используются скорее как игрушки или только для поиска информации в интернете.
До сих пор во взаимодействии человека и голосового помощника много сложностей. Такие системы не всегда правильно понимают, когда люди хотят воспользоваться виртуальным помощником, а когда адресуют вопрос другому собеседнику. Эта проблема часто возникает при разговорах между несколькими людьми и голосовым помощником, так как пользователи могут также общаться друг с другом во время взаимодействия с компьютерной системой. Сегодня предпочтителен подход использования помощника с употреблением ключевого слова. Когда пользователю надо воспользоваться голосовым помощником, ему сначала нужно назвать команду, активирующую систему, например «Окей, Google» (для системы Assistant от Google), «Alexa» (для системы Amazon Echo — самая популярная голосовая колонка в мире) или «Алиса» (для голосового помощника от «Яндекса»), а затем задать интересующий вопрос. К сожалению, этот способ начала диалога часто приводит к некоторому недопониманию между системой и пользователями. Система может не активироваться, когда ключевое слово было сказано, но не было распознано, и пользователь должен повторять его еще раз. Иногда, что еще хуже, система самостоятельно активируется из-за неправильно распознанной фразы пользователя или из-за использования зарезервированного ключевого слова в другом контексте без какого-либо намерения взаимодействовать с SDS.
Авторы решили создать новую систему, которая сможет отличать речевой запрос, адресованный помощнику, от разговора с другими людьми.
Все существовавшие до этого исследования в этом направлении проводились на корпусах текстов, спроектированных таким образом, что человек и машина играли разные роли в диалоге. Например, система имела тенденцию пассивно взаимодействовать с пользователем, только отвечая на запросы пользователя, в то время как собеседник-человек мог вести себя активно, инициируя взаимодействие.
Карпову и его коллегам удалось добиться значительных улучшений в работе системы. Теперь она сможет занимать активную роль в диалоге благодаря самостоятельному определению адресата речевого сообщения пользователя. Для этого система анализирует акустические и лексические характеристики произнесенных фраз, в том числе используя автоматическое распознавание речи.
Коллектив ученых обнаружил и исследовал интересную закономерность: как только люди начинают говорить с виртуальным помощником, они упрощают и приспосабливают свою манеру речи, делая ее более разборчивой, громкой и в целом более легкой для понимания, так как они не воспринимают систему как адекватного собеседника. Ученые даже обнаружили сходство паралингвистических характеристик речи взрослых людей, обращенной к компьютеру и к маленьким детям, то есть уровень «интеллекта» помощника воспринимается на уровне ребенка.
Известно, что проблемы коммуникации между человеком и машиной в целом сильно зависят от культуры, языка, речевого корпуса и даже от говорящего. Поскольку исследование проходило совместно с учеными из Германии, зависимость акустических моделей исследовали на различных корпусах немецкой речи и проводили серию перекрестных экспериментов. Применяя новый алгоритм, основанный на микшировании данных, авторы дополнили собранный корпус Restaurant Booking Corpus (RBC), который состоит из идентичных по сложности телефонных звонков, новыми сгенерированными данными.
Для проведения экспериментов записали новые базы данных немецкой речи (Voice Assistant Conversation Corpus). Записи проходили в обстановке, похожей на жилую комнату, чтобы участники могли чувствовать себя более неформально при общении с системой. Во время каждого эксперимента пользователь решал разные задачи с помощью голосового помощника Amazon Alexa, например назначал встречи или отвечал на вопросы викторины. Ученые провели эксперименты без использования ключевого слова. Авторы отметили, что общение с технической системой зависело от того, были ли ее ответы похожи на ответы человека или нет. В результате эти факторы могут потенциально повлиять на поведение говорящих. Учитывая эти соображения, авторы считают, что диалоги «человек—человек» и «человек—машина» должны становиться все более похожими из-за растущих возможностей будущих технических систем.
Над этим исследованием и статьей также работал аспирант из Университета ИТМО Олег Ахтямов, его соруководитель с немецкой стороны Вольфганг Минкер (Ульмский университет) и профессор Инго Зигерт (Университет Магдебурга), который занимался сбором речевых корпусов.
По материалам статьи «Using Complexity-Identical Human- and Machine-Directed Utterances to Investigate Addressee Detection for Spoken Dialogue Systems»; Oleg Akhtiamov, Ingo Siegert, Alexey Karpov, Wolfgang Minker; журнал Sensors, май 2020 г.