"Даже в куклу Барби сегодня встраивают искусственный интеллект"
инновации
Центр речевых технологий в прошлом году стал использовать лаконичное название ЦРТ. Уже больше трех лет компания кроме речевых технологий занимается биометрической идентификацией — умением узнавать людей не только по голосу, но и по лицу. ДМИТРИЙ ДЫРМОВСКИЙ, глава ЦРТ, рассказал редактору "ИТ" СВЕТЛАНЕ РАГИМОВОЙ о том, как развиваются компания и рынок, на котором она работает.
— Как развивается рынок интеллектуальных технологий?
— Сейчас, наверное, наиболее громкая тема здесь — это чат-боты. Они появляются буквально по несколько штук ежедневно. Многие компании самостоятельно их создают, другие заказывают у аутсорсеров. Область применения чат-ботов огромна. Они могут использоваться для развлекательных целей, в качестве персональных ассистентов, операторов в справочных службах. Компании развивают дистанционное обслуживание, и сегмент растет очень быстро.
Если говорить о распознавании речи, в эту сферу вливают огромные инвестиции компании-гиганты. Недавно компания IBM объявила о том, что ее решение распознает английскую речь с вероятностью ошибки в 5,5%. То есть на полпроцента лучше, чем человек. О таких же успехах недавно заявляла компания Microsoft. Причем команда корпорации не скрывала, что для совершенствования своей системы в том числе использовала научную статью сотрудников ЦРТ.
Сейчас практически все производители автомобилей встраивают голосовые помощники в бортовые системы. Мы в прошлом году встроили свою систему распознавания и синтеза речи в бортовую информационную систему автомобиля "КамАЗ". Причем ключевая особенность этого решения — способность эффективно работать в шумах. Мы потратили много усилий на то, чтобы добиться качественной работы в реальных условиях — даже на ходу с открытыми окнами. Система может работать автономно, без подключения к сети Интернет.
В сегменте потребительских товаров набирает скорость интернет вещей. Даже кукла Барби сегодня обладает интеллектом, разумеется — искусственным: она подключается через Wi-Fi к облаку, умеет общаться, отвечать на вопросы. Говорящие холодильники и микроволновки, о которых мы так долго шутили, уже никого не удивляют.
Значительный подъем по всему миру происходит в области биометрии. Лидирует пока Северная Америка. Эти технологии уже используются повсеместно: в мобильных приложениях, системах безопасности, финтехе. Все мы пользуемся распознаванием отпечатка пальца для разблокировки смартфона.
По всем этим направлениям прогнозируемый рост — 20-30% в год.
По аналитике компании Gartner видно, что распознавание речи и биометрия выходят на так называемое плато продуктивности. Речевую аналитику и голосовых ассистентов используют уже очень многие большие контакт-центры.
Искусственный интеллект и машинное обучение сейчас находятся на этапе "завышенных ожиданий". Это значит, в ближайшие один-три года наступит период "разочарований", компании начнут искать новые способы применения технологий и постепенно выйдут на "плато продуктивности".
— Как эти тенденции сказались на развитии вашей компании?
— С недавних пор мы предпочитаем использовать другое название — не Центр речевых технологий, а ЦРТ. Дело в том, что компания уже давно занимается далеко не только речевыми технологиями.
Так, мы используем технологии искусственного интеллекта и машинного обучения для создания чат-ботов и ассистентов. Они позволяют организовать процесс самообслуживания не только в голосовом канале, например по телефону, но и в цифровых каналах взаимодействия с клиентами: в SMS, мессенджерах, чатах.
Это вполне логичное продолжение той работы, которую мы вели долгие годы. Мы много лет занимаемся созданием систем голосового самообслуживания для банков и крупных компаний. Среди них — ВТБ 24, "Ростелеком", РЖД, Газпромбанк и другие. Банки в последние годы начали активно развивать омниканальность — универсальное обслуживание клиентов по единым стандартам через все каналы взаимодействия. Учитывая потребности заказчиков, мы добавляем новые возможности в свои решения.
Для самообслуживания клиентов в разных каналах нужна единая интеллектуальная система — мозг, который будет понимать, что хочет клиент, и формировать правильные ответы. Мы сочетаем при построении таких решений два подхода. Первый — классический — это работа по заранее заданным правилам. К нему добавляем функции самообучения через нейронные сети. В голосовом канале этот интеллект контактного центра самообслуживания взаимодействует с клиентами с помощью технологий синтеза и распознавания речи. В текстовых каналах общается с пользователями через текст. Также эта система может использоваться для поддержки принятия решений — когда она готовит возможные варианты ответов, а оператор выбирает наиболее подходящий. То есть происходит взаимодействие человека и машины. На простые вопросы отвечает робот. На сложные, когда требуется решить какую-то нетипичную проблему,— оператор с помощью "суфлера" на основе искусственного интеллекта.
Также у нас появились решения для распознавания лиц в видеопотоке, на фотографиях. Лицевой биометрией в ЦРТ начали заниматься около трех лет назад: мы поняли, что это перспективное направление, и решили его развивать. Собрали команду и за год построили одно из лучших решений в области лицевой биометрии в РФ. Первую систему распознавания лиц в видеопотоке мы внедрили на стадионе "Петровский" футбольного клуба "Зенит" в Санкт-Петербурге. С тех пор сильно продвинулись в этом направлении. Теперь наше решение работает в банках, на вокзалах, в аэропортах, на различных стадионах и спортивных объектах. В каких-то случаях это часть системы обеспечения безопасности, в других — используется для оптимизации работы, ускорения процессов. На недавнем конкурсе Фонда перспективных исследований, в котором участвовало более 25 команд, наш продукт вошел в число призеров.
— Какие продукты вы вывели на рынок на основе этих новых технологий?
— Мы развиваем мультимодальные биометрические системы. Один из таких продуктов — VoiceKey.OnePass — предназначен для доступа к банковским и другим мобильным приложениям через одновременное распознавание владельца по лицу и голосу с использование уникального детектора "живого" пользователя.
Нашу платформу VoiceKey могут использовать банки, финансовые, телекоммуникационные и другие компании для предоставления доступа к услугам через биометрическую аутентификацию. Это универсальное решение, в которое можно подключать различные виды биометрии: голосовую, лицевую, по отпечатку пальца, ладони. Платформу можно настроить так, чтобы использовать разные виды идентификации для разных каналов.
Второй новый продукт — чат-бот ChatNavigator, один из элементов которого это уже упомянутый "суфлер".
Третий продукт, который мы сейчас выводим на рынок,— Voice2Med. Он предназначен для врачей, прежде всего тех, которые занимаются инструментальной диагностикой (КТ/МРТ, рентген, УЗИ и др.). С его помощью они могут голосом заполнять необходимые протоколы осмотров, медкарты и прочие документы. Сейчас уже ведется несколько пилотных внедрений в различных городах РФ, отклики от врачей самые позитивные.
— Ваша компания много лет разрабатывала речевые и биометрические технологии. Сейчас благодаря развитию ИИ и машинного обучения тех же результатов можно добиться за считаные месяцы. Чувствуете ли вы усиление конкуренции?
— Безусловно, есть ниши с высокой конкуренцией, например в области лицевой и видеобиометрии. В этой сфере работает множество команд и в РФ, и во всем мире.
Это связано с тем, что действительно порог входа на рынок стал довольно низким. Можно использовать открытое ПО и на его основе разработать базовую биометрию с небольшими затратами. Эти средства применимы в простых задачах.
Но есть еще и "высшая лига" — решения, связанные с безопасностью, финансами. Вход на этот рынок гораздо сложнее. Недостаточно просто взять систему и обучить ее даже на большом количестве данных. Здесь требуется понимание, как это все работает у клиента, нужны специфические компетенции, глубокая научная проработка. К примеру, наше решение для доступа к мобильному банкингу предлагает клиенту сделать селфи и произнести случайные цифры на экране. Система распознает лицо, голос и проверяет, соответствуют ли движения губ тому, что человек произносит. Такие решения серьезного уровня невозможно обмануть с помощью записи голоса и фотографии — их уже можно применять для перевода крупных сумм денег и так далее.
Открытая библиотека позволяет быстро создать решение, преобразующее звучащую речь в текст с точностью до 65-70%. Но если стоит задача получить 90-процентную точность на спонтанной русской речи в шумах, в телефонном канале, то требуются не просто хорошие базы для обучения, а целый ряд действий: шумоочистка, проработка базы, подготовка нейронных сетей, учет особенностей языка и так далее. Общедоступные сети не всегда пригодны для решения конкретных задач. Мы создаем свои нейронные сети сами, знаем все их плюсы и минусы, умеем их правильно применять. Так что конкуренция, конечно, возрастает, но по многим направлениям у нас сильные позиции. Также мы, увы, видим серьезный перегрев рынка труда в этом сегменте.
— У вас же есть валютная выручка, рост российских зарплат разве сильно влияет на ваш бизнес?
— Мы действительно стараемся активно развиваться на зарубежных рынках. Прежде всего в Южной Америке, на Ближнем Востоке, в Азии. Открыли подразделение в Йоханнесбурге, в Египте внедряем биометрические решения для транспортных узлов, работаем в Южной Корее, Бразилии, Аргентине. Продолжает активно работать и американский офис в Нью-Йорке.
На данный момент экспорт составляет около 30% выручки компании. Из них около 30% — Латинская Америка и Ближний Восток, 20% — США, 10% — Азия. Рост экспортной выручки — одна из главных стратегических целей компании.
Результаты внедрения решений ЦРТ
В контакт-центре Северо-Западного филиала "Ростелекома" система речевой аналитики от ЦРТ за несколько месяцев проверила качество работы операторов в 1,4 млн диалогов. С использованием этих данных служба качества провела работу с операторами и оптимизировала сервисы самообслуживания. В результате:
на линии входящего телемаркетинга снизилась непрофильная нагрузка на 14% и повысились продажи на 22,5%;
на информационно-справочном направлении среднее время обслуживания снизилось на 11,73%.
Система голосового самообслуживания на основе технологий синтеза и распознавания речи, которая сообщает клиенту о статусе груза в "Деловых линиях", позволила сократить среднее время обслуживания в КЦ на 25%.