Чтобы удержаться в лидерах, Михаилу Хитрову пришлось бегать от выгодных предложений. Только так он смог сохранить команду разработчиков, которые в состоянии научить компьютер понимать русскую речь.
Человек, связанный по рукам толстенными веревками, после ограбления пытается вызвать помощь. Дав словами указание компьютеру найти сайт службы 911, он общается с оператором, надиктовывая компьютеру текст. Слова без ошибок немедленно появляются на мониторе. Сцена постановочная — это видеоподкаст обозревателя The New York Times Дэвида Пога на сайте газеты. Но программа NaturallySpeaking 11, которой посвящен сюжет, вполне реальна. Это очередная, вышедшая в августе этого года, версия основного продукта компании Nuance, мирового лидера в области речевых технологий.
То, что демонстрировал Пог,— высший пилотаж технологий, называемых на языке профессионалов "автоматическим распознаванием слитной речи". Nuance почти научила компьютер понимать английский язык. Почти, потому что пока компьютер с хорошим качеством распознает речь только тогда, когда говорит один человек и мало посторонних шумов.
В этой высокотехнологичной отрасли у Nuance есть конкурент из России. По крайней мере, так думает о своей компании "Центр речевых технологий" (ЦРТ) ее основной владелец Михаил Хитров. На российском рынке ЦРТ добился примерно того же положения, что и Nuance на глобальном,— лидерства по разнообразию предлагаемых продуктов и оборотам. Хотя весовые категории у компаний разные: годовой оборот Nuance превышает $1 млрд, а ЦРТ еще не преодолел планку $20 млн. Сейчас в штате компании 27 кандидатов и докторов наук, новыми разработками занимаются более трети из 270 сотрудников.
Этим летом ЦРТ завершил исполнение самого крупного контракта в своей истории — развертывание первой в мире национальной системы голосовой идентификации для МВД Мексики. В сентябре "Яндекс" объявил о запуске сервиса голосового поиска, технологию для которого разработал также ЦРТ.
В круге первом
Как говорит Михаил Хитров, ему слишком долго приходилось строить свое дело, игнорируя многие законы бизнеса. Впрочем, инженером-речевиком он стал, погнавшись именно за длинным рублем. Это было еще в 1978 году. Тогда Михаил Хитров обслуживал лабораторные комплексы на кафедре радиотехнических систем Ленинградского института авиационного приборостроения, который он окончил в 1973 году. Получал молодой специалист 105 руб. в месяц. Приятель позвал его в НИИ "Дальняя связь" на оклад 130 руб. плюс 15% за секретность (отдел, в который пришел Михаил Хитров, выполнял в том числе заказы КГБ). Дополнительно 45 руб.— серьезный финансовый аргумент по тем временам.
"У нас, конечно, царила уравниловка, как и везде. Кто хотел — работал, кто не хотел — носки вязал. Я работал",— вспоминает Михаил Хитров. Результатом стали защищенная в 1987-м кандидатская и еще "Жигули", которые он получил как лучший инженер в том же самом году.
Исследования речи и технических приложений, связанных с ней, в СССР находились на высоком уровне. Еще в 1940-х и 1950-х годах такими проектами занималась Марфинская лаборатория — "шарашка" из солженицынского "В круге первом". "Научный фундамент у нас был хороший",— говорит Михаил Хитров и вспоминает, что профильная конференция "Автоматическое распознавание слуховых образов" в 70-е годы прошлого века собирала до 700 участников. В современной России такого не повторить. По сути, в стране осталась только санкт-петербургская речевая научная школа.
Отдел, где работал Михаил Хитров, занимался, в частности, исследованиями в области вокодеров (преобразователей речи в цифровой сигнал) и так называемой гелиевой речью. Если вдохнуть гелий из шарика, голос звучит очень забавно,— телевизионщики используют этот прием в разных шоу. Но вот отсутствие связи с водолазами (из-за того что они дышат смесью воздуха с гелием, вместо речи в переговорных устройствах иногда слышно только бульканье) уже не смешно, а опасно.
250 мексиканских полицейских участков могут обращаться к базе, содержащей до миллиона голосов правонарушителей. База хранится в подземном бункере в Мехико вместе с другими данными по преступному миру
По уставу
Михаил Хитров — мастер спорта по альпинизму, входил в сборную СССР, был даже кандидатом в команду для восхождения на Эверест. "Альпинизм сильно помог в бизнесе,— говорит Хитров.— Физическая форма, выносливость, умение терпеть — все это пригодилось". Помогли не только навыки. Владимир Самохвалов, ныне совладелец питерской компьютерной компании Erimex и создатель "Академии подарка", а в конце 1980-х гендиректор одного из первых совместных предприятий и приятель Хитрова "по альпинистской линии", предложил поработать под его крышей. То есть в его офисе и используя услуги его бухгалтера. Михаил Хитров согласился, и на пару с соратником Сергеем Ковалем, который до сих пор в ЦРТ руководит наукой, они начали искать заказчиков.
Первые деньги принесли заказы Всероссийского общества слепых (ВОС). Два экземпляра простейшего синтезатора речи, озвучивавшего набираемые на клавиатуре буквы (Хитров называет его "говорилкой") продали за 10 тыс. тогдашних рублей. Прибор, позволявший изменять скорость воспроизведения текста с магнитофонной кассеты без появления "эффекта Буратино и Карабаса-Барабаса" (когда ускорение или замедление воспроизведения сильно искажают голос), собрали уже в 100 экземплярах. Тогда были распространены "голосовые газеты", и московский офис ВОС реагировал на запросы незрячих потребителей новостей: кому-то казалось, что их читают слишком быстро, кому-то — слишком медленно.
Через год, в 1991-м, у Хитрова уже было семь сотрудников, и они учредили ЦРТ. Сейчас Хитров считает это проявлением наивности и романтизма в бизнесе, но тогда он разделил компанию на восемь равных долей. В конце 1990-х ему пришлось потратить довольно много усилий, чтобы сконцентрировать контроль над ЦРТ: сегодня из тогдашних восьми человек в соучредителях осталось лишь четверо. В 1991 году Михаил Хитров написал и устав, где главной целью компании было объявлено техническое совершенство продуктов, а деньги отодвинуты на второй план. Компания официально отказывалась от любого заработка, если он не связан с голосовыми технологиями.
В то время на банальной дистрибуции можно было заработать гораздо больше, но Михаила Хитрова устраивали профессиональные успехи. В 1993 году сотрудники недавно созданного российского МВД заказали ЦРТ программу для проведения фоноскопических экспертиз, то есть для изучения аудиозаписей: оцифровка, визуализация, разделение речи говорящих, изменение ее скорости и т. д. Работа над ней финансировалась в течение года, появились средства для найма новых сотрудников.
Затем последовал заказ от управления специальных технических мероприятий ФСБ на системы шумоочистки, позволяющие отделять речь от шума. Работали ударно. По выражению Хитрова, "за счет дикой гиперактивности" немногочисленных сотрудников через три-четыре месяца силовики получили 20 устройств "Золушка", а технологии шумоочистки до сих пор являются сильной стороной ЦРТ. В конце 1990-х появились и международные заказы.
Трудности перевода
"Нам его услуги не стоили ничего, мы только оплачивали съем квартиры на Гражданском проспекте. Он по-русски ни одного слова не знал, смелый такой был дедушка",— вспоминает Михаил Хитров американского консультанта, который помог ЦРТ выйти на международный рынок. Консультант, имени которого Хитров уже не помнит, долгое время работал в финансовом департаменте NASA, потом вышел на пенсию, а к нам в страну приехал по приглашению Citizens Democracy Corps. Эта частная некоммерческая организация была создана в 1990 году в США для реализации в России программ поддержки малого предпринимательства. "Дедушка" помог не столько своими связями — он убедил Хитрова и его сотрудников, что они ничем не хуже американских инженеров и вполне конкурентоспособны. Первым иностранным клиентом стала в 2000 году американская Kay Elemetrics. Заказанный ею прибор тоже был предназначен для криминалистической экспертизы.
В XXI век компания вошла с оборотом под 200 млн руб. По меркам западного рынка это типичный small business. Тогдашний рынок и не позволял другого развития событий. Но 11 сентября 2001 года в США подхлестнуло развитие биометрического (идентификации личности) рынка, неотъемлемой частью которого наряду с дактилоскопией, распознаванием по радужной оболочке глаза, подписи, контуру ладони и лицу являются голосовые технологии. Мировой рынок биометрии увеличился со $160 млн в 2001 году до $1,45 млрд в 2005-м. На волне растущего интереса в 2002 году на ЦРТ обратил внимание инвестор — фонд Quadriga Capital Европейского банка реконструкции и развития. Несмотря на то что фонд носил название венчурного, его директор по инвестициям Александр Савинов, который курирует этот проект, говорит, что из всех портфельных инвестиций эта была единственной, максимально близкой к идее венчура.
Фонд и компания "женихались" полтора года. Михаил Хитров не скрывает, что он не очень много знал об инвестициях. "Мы дадим вам денег".— "Давайте".— "Мы за это рассчитываем получить долю в вашей компании".— "С какой стати?" Примерно так он описывает свой первый опыт общения с инвесторами.
В 2003 году Quadriga Capital все-таки инвестировал в ЦРТ, по оценкам сторонних специалистов (сами участники цифры не раскрывали), $2-3 млн. Михаил Хитров говорит, что эти деньги помогли компании купить оборудование, увеличить оборотные средства и быстрее выпускать более масштабные партии. Печатные платы для приборов ЦРТ изготавливает тайваньский партнер. Все остальное компания делает самостоятельно: на российском рынке по-другому нельзя.
20% рентабельности по EBITDA обеспечивает компании Nuance обучение компьютеров английской фонетике. Если российский конкурент так же прибылен, его инвесторы могут быть довольны — ведь он еще и быстро растет
Полицейский заказ
Общение с представителями инвестсообщества не прошло для Михаила Хитрова бесследно. Свою самую крупную сделку он описывает языком заправского инвестбанкира: "Это наша success story в Латинской Америке, мы получили массу references и сейчас ведем переговоры в Бразилии и Аргентине".
В 2008 году мексиканское МВД объявило тендер на разработку системы идентификации личности по записям телефонных разговоров. Как предполагает бывший сотрудник ЦРТ Герман Зубов, который участвовал в подготовке проекта на стадии получения заказа, российская компания попала на тендер отчасти благодаря везению: в отделе продаж оказался активный испаноязычный менеджер.
Мексиканские полицейские планировали собирать голоса преступников так же, как и отпечатки пальцев. Голосовая база таким образом должна была насчитывать около 1 млн записей. Герман Зубов говорит, что наиболее серьезным конкурентом (хотя в тендере участвовала и Nuance) была система итальянской компании Loquendo, по быстродействию и надежности поиска практически не уступавшая системе ЦРТ.
Окончательный выбор в пользу россиян определило лучшее знание запросов заказчика. К тому моменту ЦРТ имела 15-летний опыт работы с российскими силовыми структурами, а полицейские во всем мире похожи друг на друга. Итальянцы же специализировались на рынке b2c. По оценкам СФ, двухлетний мексиканский контракт принес ЦРТ около $10 млн. Для сравнения: в 2009 году выручка компании выросла на 12% и превысила планку $15 млн.
Другие перспективные для ЦРТ проекты — IVR-технологии, позволяющие call-центрам автоматизировать первые этапы общения с клиентами. Компьютер задает вопросы и по полученным ответам решает, с каким из подразделений соединить человека. Из-за ограниченной грамматики и лексики такие проекты осуществить проще, чем ускользающую уже 30 лет технологию полного распознавания. Вместе с компанией "Компьюлинк" ЦРТ уже реализовал подобное решение для Транскредитбанка. Сейчас компания Хитрова является одним из подрядчиков большого проекта для РЖД. Стоимость каждого из таких проектов может составлять несколько сотен тысяч долларов, но Михаил Хитров считает, что это только начало: в будущем количество клиентов увеличится в разы. Эксперты авторитетной исследовательской компании Opus Research в целом с ним согласны (см. график).
Кроме того, до конца 2010 года "Яндекс" собирается наладить с помощью ЦРТ голосовой поиск по своим картам. Пользователям не придется вбивать адреса — система будет реагировать на голос. Похожий сервис 22 сентября этого года запустил Google, правда, по мнению Германа Зубова, пока работает он не безупречно. Впрочем, новые дорогостоящие разработки не единственный источник дохода ЦРТ.
От "Гнома" до "Золушки"
Технологический бутик — так Михаил Хитров называет бизнес-модель своей компании. Разработку, созданную по желанию и за деньги конкретного заказчика, ЦРТ потом предлагает рынку. Например, программа, разработанная в 1992 году для МВД под названием SIS, легла в основу экспертно-криминалистических комплексов "Икар лаб", которых сегодня продано более 350 в 60 стран мира (стоимость зависит от модели и составляет 150-700 тыс. руб.).
"Икар лаб", "Золушки", высококачественные цифровые диктофоны "Гном", технологии поиска музыкальных произведений по фрагментам, технологии стенографирования публичных выступлений — сейчас в каталоге ЦРТ 23 коробочных продукта. Хитров считает, что именно многообразие помогло компании ровно пройти кризис. Но большой ассортимент таит в себе и недостатки. Например, Герман Зубов, создавший уже свою компанию "Форэнекс", специализирующуюся на речевых технологиях, считает, что чрезмерная диверсификация мешает ЦРТ поддерживать все технологии на передовом уровне.
В 2008 году ходили слухи о том, что ЦРТ заинтересовались Nokia и Nuance. Кризис эти разговоры пресек. Трудно представить инвестора, которого заинтересуют сразу все технологии и продукты, заботливо взлелеянные Михаилом Хитровым. На сегодняшний день Quadriga владеет долей в ЦРТ уже семь лет — срок большой. Очевидное объяснение — влияние финансового кризиса. Александр Савинов комментирует, что общение с потенциальными инвесторами продолжается, но фонд не будет спешить с продажей по любой цене. При нынешних темпах развития ЦРТ Quadriga устраивает и простое участие в дивидендах. Рентабельность бизнеса ЦРТ неизвестна, но Nuance "голос" обеспечивает рентабельность 20% по EBITDA.
Уже 20 лет Михаил Хитров идет к исполнению своей мечты — автоматическому распознаванию русской речи, но цели все еще не достиг. Как объясняет сам инженер-предприниматель, очень сильно мешает свободный порядок слов в русском языке. Кроме того, не хватает лингвистических корпусов — голосовых баз с несколькими тысячами часов записей, которые сделаны тысячами дикторов. Их создание может стоить несколько десятков миллионов долларов, и ЦРТ в одиночку этот проект не потянуть. Остается уповать на государство.
Пока компании хватает того, что она научилась извлекать доход и из усиливающихся страхов (биометрия), и из растущих возможностей (интернет и call-центры).