Мастера разговорного жанра
Центр речевых технологий (ЦРТ), базирующийся в Санкт-Петербурге, вполне можно назвать уникальной для российского рынка высоких технологий компанией. Частная структура, созданная 25 лет назад, основала собственную кафедру в Университете информационных технологий, механики и оптики (ИТМО) и смогла заставить работать всю классическую цепочку инноваций: от научных исследований до создания конечного продукта и его продаж. В итоге ЦРТ стал признанным авторитетом в области синтеза, распознавания и анализа речи.
С дрожью в голосе
В просторной комнате трудится шесть менеджеров, каждый из которых, как нам пояснила пресс-секретарь ЦРТ Алиса Калиновская, курирует свой отдельно взятый продукт или группу схожих продуктов. Один из сотрудников демонстрирует свой смартфон с приложением, разработанным ЦРТ, и позволяющим точно идентифицировать человека. "С помощью нашего продукта можно авторизовываться в защищенных системах по голосу и изображению лица. То есть не надо помнить специальные пароли, иметь одноразовые карточки, использовать SMS, которые на телефон приходят. Все просто. Чтобы войти, например, в ваш банковский аккаунт, нужно лишь посмотреть в камеру смартфона, произнести фразу — система вас узнала, и вы входите",— говорит он.
Работает эта система так. При регистрации вы оставляете эталонные образцы вашего голоса и лица. Система вас сфотографирует, запишет контрольные фразы, которые вы произнесете. Эти данные хранятся на сервере. При любой попытке входа система сравнивает ваше лицо и голос с теми, что есть на сервере. Голос сымитировать очень сложно: даже у близнецов голоса отличаются. "Против подделок — записей голоса и фотографий — у нас существует несколько технологий, так называемый детектор живого пользователя. Одна из ключевых: проверяем, что во время произнесения парольной фразы двигаются определенные точки лица. Сейчас мы достигли того уровня, что можем проверять, двигаются ли губы в соответствии со словами, которые произносит пользователь. В мире никто не достиг той точности, которой достигли мы",— не без гордости за свой продукт рассказал представитель ЦРТ. Тут читатель, конечно, обратит внимание на то, что мы не называем сотрудника по имени. Это неслучайно. Многие из них работают над секретными проектами, и первое, о чем нас попросили во время визита, не называть имена собеседников. Исключение было сделано только для директора и пресс-секретаря предприятия.
Система идентификации ЦРТ уже используется американским банком Wells Fargo. "Вообще биометрия очень перспективна для различных колл-центров. Потому что, например, когда вы звоните в колл-центр банка, то вам задают различные вопросы для идентификации — это долго, неудобно и небезопасно в конце концов. Можно придумать тысячу способов узнать ваше кодовое слово. Когда мы используем голосовую биометрию, то это позволяет избавиться от долгого опроса. Система определяет, что голос принадлежит хозяину, выдает сообщение оператору, что все ОК. Это удобно клиенту и контакт-центру", — рассказали в ЦРТ.
Я сразу поинтересовался, не предлагал ли ЦРТ свое решение крупным вендорам, производителям смартфонов для авторизации пользователей, пытающихся залезть в смартфон? У девайсов Samsung, например, чтобы активировать смартфон, требуется водить пальчиком по цифрам, что, по мне, не особо удобно. Куда проще просто посмотреть в камеру или сказать контрольную фразу. Ну и интереснее, разумеется. Однако, заявили нам, крупные вендоры тяжелы на подъем: "У нас идут некие переговоры с Samsung, LG, чтобы внедрить наше решение как систему авторизации для входа в смартфон, но они тянутся очень долго".
Зато система идентификации ЦРТ уже принесла крупный успех после внедрения мексиканскими полицейскими. Оказывается, у сотрудников ЦРТ перед внедрением состоялось увлекательное путешествие по всем тюрьмам Мексики, во время которого была составлена база данных лиц и голосов злодеев всех мастей. Вскоре после внедрения был перехвачен телефонный звонок: некто требовал выкуп за похищенного человека. Тут-то и сработали технологии ЦРТ. Голос пробили по составленной ранее базе и идентифицировали преступника, который, оказывается, накануне освободился из тюрьмы и взялся за старое. Преступление раскрыли моментально.
"При анализе голоса мы выделяем 74 параметра. Для сравнения: в отпечатке пальца около 20 параметров. Но в телефонном разговоре отпечаток пальца использовать затруднительно",— говорит представитель ЦРТ.
По словам госпожи Калиновской, вскоре к сегменту B2B, уже широко использующему технологии ЦРТ, смогут присоединиться и массовые пользователи. ЦРТ решил выпустить продукт в сегменте B2C с названием VOCO — программу распознавания текста и преобразования ее в печатный текст. Эту программу можно обучать с помощью текстовых документов, с которыми вы работаете, чтобы она получала представление об используемой вами лексике.
Говорит и доказывает
От продуктового отдела мы двинулись в глубины офиса ЦРТ, спустившись на первый этаж, где в огромной и несколько мрачноватой комнате, больше похожей на производственный цех, нас встретили массивные стеллажи с различными "железками" и инженеры в халатах, собирающие из них конечные изделия. Для меня, если честно, это было неожиданно — ЦРТ всегда ассоциировался в моем представлении исключительно с софтверной компанией, но никак не производственной.
На территории сборки нас сразу предупредили, что фотографировать все подряд тут не получится в связи с тем, что часть устройств собирается для военных заказчиков. Действительно, некоторые стеллажи были заняты какими-то угловатыми ящиками в стиле стимпанк, из которых торчали допотопные тумблеры и огромные кнопки. Нам пояснили, что это устройства для ВМФ России, которое монтируется на военных кораблях. "Массивный внешний вид военной техники обусловлен особыми требованиями по температуре, ударопрочности, влажности и так далее",— рассказали нам и повели к стеллажу с гражданской продукцией.
"Тут собирается профессиональная техника, предназначенная для записи переговоров. Китайцы такого не производят. Запись осуществляется либо со встроенного микрофона, либо с гарнитуры — два выносных микрофона. В режиме записи зарядки хватает по тактико-техническим параметрам на 36 часов. А по факту — на 48. Есть разные режимы включения — по таймеру, на звук и др. Информация хранится на внутренней флеш-памяти. По дальности записи почти в два раза бьет любой китайский диктофон",— рассказали нам. Кто является основным потребителем этих диктофонов, догадаться несложно. Разведчики, сотрудники служб безопасности и детективы.
Помимо высоких технических характеристик у этих устройств есть еще одно очень значимое конкурентное преимущество. "Это единственный в России диктофон, запись которого можно использовать в суде как доказательство, так как ее нельзя подделать и смонтировать. Есть специальные аудиомаркеры, которые сигнализируют о разрыве, или склейке, или изменении метаданных. Это проверяется с помощью специальной программы. У нас есть сертификат МВД. В прошлом году у нас был проект в Непале. Можно сказать, что мы основали там аудиокриминалистику, поскольку до этого аудиоматериалы как доказательство у них никак нельзя было использовать. Теперь, после поставки нашего оборудования, можно",— пояснила госпожа Калиновская.
Волшебный диктофон полностью разработка ЦРТ. Печатные платы заказываются в Китае, в Петербурге хороших заводов для этого нет. А вот набивка плат электронными элементами происходит в Петербурге: оборудования для этого в городе "полно". "Конечную сборку устройства делаем всегда мы. Потому что здесь наше ноу-хау, наша прошивка. Ни в коем случае это не передается никому другому",— заявили в ЦРТ.
Творческие люди
Из недр сборочного цеха мы вернулись наверх в отдел R&D, где обитают программисты и ученые. Пресс-секретарь объясняет, что программисты и исследователи, как люди творческие, живут не столько по часам рабочего дня, сколько исходя из собственных творческих потребностей. Поэтому их день не нормирован и некоторые находятся в офисе до закрытия метро. Всего в ЦРТ около 400 сотрудников, из которых 150 занимаются научными исследованиями и разработкой продуктов.
Часть сотрудников отдыхала, сидя на диванах в зоне отдыха. Рабочий день уже кончился, а у этих ребят, похоже, только начинался. В основном все сотрудники молодые ребята лет 25. Нас они встретили как инопланетян, вторгнувшихся в их владения, но вели себя достаточно непринужденно. Сперва они с улыбками на лицах прятались от фотографа, стесняясь попадать в кадр, но затем привыкли к чужакам и даже стали позировать, играя с йо-йо перед объективом корреспондента "Ъ".
Пообщаться с программистами, если честно, нам не удалось: времени до встречи с генеральным директором ЦРТ уже почти не оставалось, да и о чем бы они могли нам поведать — языки программирования нам недоступны, и код, которые они пишут, мы объективно оценить не смогли бы. Зато мы узнали, что в этом отделе более всего уважают пиво. На доске обсуждений висела диаграмма с названием напитков — "пиво", "мартини" и "виски". Доля пива была самая длинная, а доля виски — наиболее короткая. В моем представлении, все должно быть наоборот, но может быть, именно поэтому я и не программист.