Можно слушать глазами

Как это делается / Прикладная лингвистика

Как уследить за качеством работы колл-центра, если в нем работают десятки сотрудников? Петербургская компания Voisi создала программный продукт, который расшифровывает и анализирует телефонные переговоры с клиентами.

Представьте, что вам нужно получить по телефону какую-то услугу: записаться в автосервис или к врачу, заказать в интернет-магазине торт к праздничному столу. Телефонистка соединяет вас с менеджером, и вы вдруг с неприятной отчетливостью понимаете, что менеджер хамит. Или, что не лучше, не знает, есть ли у него такой товар или время у врача. Вы бросаете трубку и клянетесь себе, что больше в этот сервис, банк, магазин не обратитесь. Компания теряет клиента. А если таких менеджеров много, то много клиентов.

А теперь допустим, что компания может быстро вычислить, кто напортачил. Тогда нерадивого работника быстро уберут, с клиентами будет беседовать компетентный специалист и в этом месте бизнеса проблемы не будет.

Но колл-центры принимают сотни звонков в день. Значит, чтобы контролировать работу сотрудников, надо прослушивать и расшифровывать сотни часов телефонных переговоров. Однако в ручном режиме можно прослушать немного звонков, поскольку на прослушивание разговоров уходит больше времени, чем длится запись. То есть, чтобы обработать 100% звонков, надо набрать больше людей, чем работает в колл-центре.

Вот если бы у службы проверки качества телефонных разговоров была программа, которая переводила бы устную речь в текст и анализировала абсолютно все разговоры, вычленяя проблемные. Сколько времени и денег она бы сэкономила! Да и менеджеры стали бы эффективнее работать, если бы знали, что за каждым их шагом следит умная машина.

Такие программы уже есть. Одну из них разработала компания Voisi из Санкт-Петербурга.

Буквы, а не звуки

Константина Фируна, одного из основателей компании Voisi, всегда удивляло, почему люди не сохраняют телефонные разговоры. «Никто же не удаляет имейлы! Вы письмо открыли, прочитали и сохранили, чтобы не держать в голове. А чем речь отличается от текста? Такая же информация. Поэтому я всегда записывал разговоры на телефон: мне не нравится запоминать то, что мне говорят»,— рассказывает Константин.

Но с текстом все же удобнее работать, чем с аудиозаписью, следовательно, речь устную надо было превратить в письменную. Так родилась тема магистерской диссертации, которую Константин писал на кафедре компьютерных технологий ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики). Работа была посвящена системе распознавания телефонных разговоров.

«Тогда, в 2009-м, еще не было доступных массовых сервисов распознавания речи ни у Google, ни у "Яндекса", а то, что было на рынке, оставляло желать лучшего. И я сделал прототип продукта, который расшифровывает телефонные записи и позволяет по ним искать аналогично имейлам. Я тогда уже понимал, что у этой технологии большое будущее»,— говорит Фирун.

Теоретическая работа для магистратуры сопровождалась решением практических задач в стартапе «Медиа-инсайт», где тогда работал Константин. Новаторство заключалось в том, что для обработки звука команда использовала видеокарты, а не центральный процессор, хотя в то время считалось, что на видеокартах можно только графику просчитывать.

«В компании "Медиа-инсайт" я впервые увидел, что видеокарты можно использовать для решения прикладных вычислительных задач. Распознавание речи, как и любого другого образа, требует производительных процессоров с большой и быстрой памятью. У видеокарты памяти не так много, но она намного быстрее, чем у обычного процессора. Процессор видеокарт по тактовой частоте тоже уступает обычному компьютерному, но в нем намного больше ядер, что позволяет распараллеливать процесс намного эффективнее, чем на обычном процессоре»,— объясняет Фирун.

Благодаря видеокартам обработка звука шла быстрее, чем у конкурентов. В результате получилась промышленная технология, которая существенно ускоряла и удешевляла процесс распознавания речи. «Нашей идеей впоследствии воспользовалась куча компаний, но мы были первыми,— подчеркивает Константин.— Мы неплохо зарабатывали на оцифровке медиаархивов зарубежных телерадиокомпаний, однако потребителей в России наш продукт не нашел».

Смысл, а не буквы

С 2011 года Константин Фирун разрабатывает собственную технологию распознавания речи, позволяющую автоматизировать контроль за работой контакт-центров. «В начале 2014-го нас взял под крыло выпускник нашего университета. Он инвестировал в наши речевые технологии и продукты на их базе. Так родилась компания Voisi». Сегодня технология уже существует в виде программного продукта, пользователь может получить комплексную услугу.

Большая часть алгоритмической базы распознавания речи известна с середины 1980-х и хорошо описана в научной литературе. В последние годы исследователи вели гонку за улучшение качества и скорости работы этих технологий, но результаты улучшались не так значительно, как в конце ХХ века.

«Мы сфокусировались на библиотеках с открытым исходным кодом (программное обеспечение, которое предоставляется с открытым исходным кодом и которое каждый может отредактировать под свои цели — примерно как "Википедия", которую каждый может дополнить), которые стали стандартом де-факто для разработчиков речевых технологий. Нам удалось ускорить работу этих библиотек и сделать их стабильнее. А для ускорения их работы мы использовали вычисления на видеокартах. По сути, это был технологический прорыв: десять лет назад такой способ казался экзотикой, хотя сегодня использование видеокарт для просчета задач, не связанных с компьютерной графикой, становится все более популярным»,— объясняет Константин.

1. Сводная статистика работы колл-центра ритейлера за сентябрь 2018 года. На графике можно увидеть динамику колл-центра по основным метрикам: времени разговора, тишине, числу перебиваний оператора клиентом и наоборот. Наиболее частые запросы клиентов тут тоже можно увидеть. Тишина, то есть молчание клиента и оператора,— важная метрика, потому что молчание в телефонном разговоре — это впустую потраченные деньги бизнеса. Подсчет перебиваний необходим для оценки эмоциональной составляющей разговора

2. Детальная информация о работе групп операторов в колл-центре ритейлера. На графике показаны основные метрики: Average Handling Time (общая длительность разговора), соответствие чек-листам / скриптам, детектированные ключевые слова (то есть найденные в расшифровке разговора), перебивания и молчание. Программа сравнивает распознанную речь с эталонным скриптом (сценарием), по которому должен общаться сотрудник, и выставляет сотруднику оценку. Для сравнения используется разработанный Voisi алгоритм с поддержкой морфологии русского языка, а также учетом редакционного расстояния (необходимо для операций над текстом расшифровки, чтобы сверять слова в расшифровке с теми, которые написаны в сценарии сотрудника)

3. Телеметрия работы программного обеспечения Voisi, доступная администратору колл-центра. На экран выведены данные о точности распознавания речи, собранные с пользователей программы. Телеметрия рассчитывается на основе данных, которые генерируют пользователи: сколько времени они проводят на каждой странице, какую оценку качеству распознавания выставляют, как много ошибок исправляют в расшифровке

4. Так выглядит на экране текстовая расшифровка телефонных переговоров

Похожий сервис предлагают и другие компании, в том числе интернет-гиганты: письменное распознавание речи есть и у Google, и у Apple, с прошлого года у Amazon есть платная услуга Transcribe, переводящая речь в текст, существует множество небольших бесплатных сервисов вроде dictation.io или speechpad.ru.

Но у Voisi есть важные отличия. Во-первых, набор тематических словарей: в автосалоне, например, совершенно иной набор терминов, нежели в больнице. Со словарем, адаптированным под определенные темы, качество распознавания речи существенно повышается. Сейчас компания использует только русский и английский языки, но уже идет работа над интеграцией европейских: Voisi планирует выходить на мировой рынок.

Во-вторых, Voisi обрабатывает данные не только по облачной модели на собственных серверах, но и на серверах заказчика. Это важно для банков, которые должны хранить персональные данные клиентов в своей компьютерной сети. Кроме того, Voisi не требует для своих услуг высокомощных серверов — достаточно обычных персональных компьютеров, которых много в любом офисе. А это значит, не нужно закупать дорогое оборудование.

В-третьих, не все конкуренты Voisi предлагают заказчику полнотекстовую расшифровку. Многие ограничиваются тем, что вычленяют в разговорах ключевые слова. Voisi полностью расшифровывает телефонные разговоры, превращая их в текст в форме диалога. По этим текстам можно вести поиск.

«Мы считаем, что заказчики должны проверить, как работает наш продукт, причем бесплатно, без ограничения по срокам и размеру записей,— указывает еще на одно преимущество своей компании Константин Фирун.— Технологии распознавания образов, в частности речи,— это вероятностные технологии, поэтому при работе с ними невозможно прогнозировать, какой будет точность. Недавно, например, нам загрузили запись, где звонят узбеки, которые плохо говорят по-русски. Программа выявила в их речи только ключевые слова. Поэтому мы всегда проводим тестирование, чтобы и мы, и клиенты были уверены, что все работает в соответствии с их требованиями».

Сейчас Voisi ведет несколько тестирований в автосалонах, строительных компаниях, риэлторских агентствах.

«Через полтора-два квартала мы планируем выйти на самоокупаемость. У нас уже есть клиенты, которые нам платят, в частности компания iGoods — сервис доставки продуктов в Москве, Санкт-Петербурге и других городах России, банк "Оранжевый", работающий в Москве и Петербурге. Нашей системой заинтересовались крупные ритейловые и логистические сети, перед которыми остро стоит задача речевой аналитики. Им не нужно объяснять, зачем нужен такой продукт, потому что они сами его ищут»,— заключает Константин Фирун.

Елена Туева

 

Продавец тоже говорит

Разговоры клиентов с продавцами в автосалонах, банках и магазинах программа Voisi умеет анализировать, чтобы руководство знало, чем интересуется покупатель и правильно ли действует продавец. В 2019 году эту опцию планирует использовать компания iGoods, чтобы записывать разговоры курьеров.

Фальшь уловима

Программа Voisi имеет функцию голосовой биометрии, то есть узнает клиентов по голосу. Конечно, будет приятно, если автомат, который отвечает по телефону, например, в банках, назовет вас по имени-отчеству, но на самом деле голосовая биометрия нужна для другого. Она может с высокой точностью идентифицировать по голосу мошенников и таким образом предупредить правонарушение.

Дотерпеть до конца

«Руководство большинства компаний не знает, о чем клиенты спрашивают по телефону, особенно если это крупные компании,— объясняет Фирун.— В фирмах, торгующих машинами или квартирами, множество сотрудников общаются с покупателями по телефону, и сводная статистика телефонных запросов обычно стекается с большой задержкой. А если клиент спрашивает сначала однокомнатную квартиру в центре Москвы, а потом понимает, что за те же деньги может купить трешку в пределах Третьего транспортного кольца, чаще всего эта информация вообще в отчетах отделов продаж не сохраняется. А мы такую аналитику можем давать, показывая динамику изменения запросов. Так маркетинговая служба сможет установить, для чего люди звонят, что спрашивают, на какие цены рассчитывают. Все это происходит в автоматическом режиме и не требует ручной обработки, поэтому компании могут постоянно проводить маркетинговые исследования без каких-либо задержек и найма посредников или аутсорсеров».

Киберслух

Есть у Voisi необычный клиент — фирма из Германии, которая проводит турниры по киберспорту. В ходе турниров участники команд постоянно ведут переговоры, для этого есть специальный голосовой чат. После матчей переговоры принято анализировать, чтобы понять, что было сделано правильно, а что — нет. От этого зависит качество следующих турниров. «Наша речевая аналитика позволяет тренеру и команде быстрее проводить разбор матчей,— говорит Фирун.— Мы даже не догадывались о таком применении нашей технологии, но у него хорошие перспективы. Наш продукт востребован в мире киберспорта. После того как мы стали работать с ребятами из Германии, к нам с похожим запросом обратились разработчики из США».

Стенографист-автомат

Технологию Voisi можно приспособить к расшифровке стенограмм — аудиозаписей, которые ведутся во время всевозможных заседаний и конференций. И журналистские интервью тоже можно с ее помощью достаточно точно переводить в письменный текст. Правда, пока такой текст не получится в форме диалога, потому что в телефонном разговоре два канала и в каждом отдельный голос, а в записи интервью — только один с несколькими голосами. Но в будущем появятся технологии, которые смогут разделять их автоматически. «Мы разрабатываем такие технологии,— говорит Константин Фирун.— Думаю, что создание устойчивых алгоритмов, которые смогут различить разные голоса на одной записи, появятся у нас и других разработчиков через два-три года».

Вся лента