"Число бумажных документов, вопреки ожиданиям, практически не сокращается"

Экспорт

Компания ABBYY сделала ставку на продажу интеллектуальных программных средств обработки информации для корпоративных заказчиков. ЮРИЙ КОРЮКИН, генеральный директор "ABBYY Россия", объясняет, что проекты внедрения таких инструментов экономически обоснованны даже в кризис.

Фото: ABBYY

— Как сегодня развивается рынок интеллектуальных программных средств для работы с документами и корпоративной информацией?

— Тренды в области контентной аналитики, обработки и ввода данных по всему миру примерно одинаковы, но экономическая ситуация в разных странах и регионах накладывает определенные поправки. Если говорить о развитии рынка в мире, здесь, по оценке аналитиков Harvey Spencer Association, речь идет о более 9% роста, в регионе EMEA — 5%. Кстати, самым большим рынком в области обработки информации остается Северная Америка. В России, несмотря на то что IDC прогнозирует падение рынка ПО в целом на уровне 9% в рублях, что очень существенно, рынок интеллектуальной обработки информации, по нашим ощущениям, чувствует себя лучше. Хотя говорить о результатах 2015 года пока рано: декабрь традиционно дает существенный вклад в общую картину продаж.

Причина интереса к решениям для работы с информацией понятна: проекты и программное обеспечение, с этим связанное, позволяют на самом деле деньги не тратить, а экономить. Сейчас многие компании стараются не вкладываться в крупные инфраструктурные проекты, а оптимизировать расходы и повышать эффективность текущих бизнес-процессов. Например, по нашему опыту проекты в области ввода данных позволяют вернуть инвестиции уже через шесть-десять месяцев.

— В каких отраслях сегодня наиболее востребованы эти решения?

— Во всех, где есть большие объемы информации и документов: от банков, страховых компаний до энергетических, нефтегазовых организаций, госсектора. Если говорить о растущих направлениях в мире в целом и в России в частности, отдельно отмечу Compliance (соответствие требованиям). Этот довольно новый и сложный для русского языка термин на Западе знаком уже давно. В настоящий момент соответствие всем тем требованиям, которые предъявляются регуляторами и органами власти организациям в самых разных областях, требует значительных и постоянных затрат. Это и контроль экспортно-импортной деятельности, и законы, касающиеся защиты, хранения и использования персональных данных. Центробанк, например, требует, чтобы банки в определенные сроки проводили оценку трансакций и договоров компаний. Также финансовые организации обязаны быстро предоставлять ответы на запросы от различных госорганов. Кроме того, во всем мире принимаются законы, касающиеся защиты, хранения и использования персональных данных. Чтобы соответствовать всем этим требованиям, организациям нужно в кратчайшие сроки обрабатывать большие объемы данных, в том числе неструктурированные документы. Без использования ИТ-решений этот процесс отнимает много ресурсов.

— Можно ли посчитать возврат инвестиций от вложений в такие инструменты?

— Для этого необходимо просчитать стоимость работы сотрудников и сравнить с затратами на приобретение ПО для решения этой задачи. При использовании технологических решений возврат инвестиций в этом случае очень быстрый и, как я уже говорил, составляет от шести месяцев до года.

— Как развиваются технологии интеллектуальной обработки информации? Сейчас корпоративные заказчики только начинают внедрять то, что придумано и используется уже десятилетие. Куда движется прогресс в данных технологиях?

— Происходит технологическая трансформация в области Data Capture и Extraction (автоматизация ввода, обработки и извлечения данных). Сегодня для автоматизации обработки и извлечения структурированной и неструктурированной информации начинают использоваться семантические системы, такие как, например, наша Compreno. Это дополнение к традиционному направлению Data Capture (потокового ввода данных), которым мы занимаемся уже 20 лет. Такие системы понимают естественный язык, могут извлекать сущности и связи между ними и определять реальную тональность текста. Позволяют, например, решать вопрос "умной" классификации документов — по смыслу, а не на основе статистической модели, и устранять очень большое число ошибок, с которыми сталкивались статистические классификаторы, особенно при работе с короткими текстами. Это упрощает работу с обращениями в техническую поддержку, по анализу сообщений пользователей на форумах.

Еще один тренд — обработка данных в реальном времени и мобильность. Люди все чаще используют мобильные устройства для покупки товаров и услуг. Сегодня наши клиенты тратят не дни, а часы, если не минуты, на принятие решения об открытии счета в банке или о покупке страховки. Поэтому компаниям нужны технологии, позволяющие в реальном времени реагировать на запросы онлайн-пользователей. Мы видим драматический рост интереса компаний к решениям Mobile Capture. Мы уже запустили несколько подобных проектов, например с распознаванием паспортов в момент покупки авиабилетов в мобильном приложении. Вы покупаете билет и не тратите время на ввод данных паспорта, просто фотографируете его камерой смартфона, а программа сама обрабатывает данные и вносит их в нужные поля, причем делает это мгновенно. Это очень удобно. Похожий сценарий становится все более популярным в банках и страховых компаниях. Чтобы получить предварительное одобрение по кредиту или оплатить квитанцию, вы просто фотографируете документы и отправляете их в приложение банка. И не нужно идти в офис. Выгода очевидна и для банка — операционисты тратят меньше времени, и для клиента.

Еще один тренд в этом направлении — это дополненная реальность и связанная с ним технология Real Time OCR. В этом случае человек с мобильным устройством не фотографирует, а просто наводит видоискатель фотоаппарата в мобильном устройстве, а мобильное приложение автоматически понимает, какие данные необходимо извлечь.

Кроме того, если раньше основным источником получения информации для извлечения и анализа данных были исключительно сканеры, то сегодня мы видим очень существенное смещение в сторону получения информации сразу в электронном виде. Поток информации из email, внутренних систем, МФУ драматически растет. При этом и число бумажных документов, вопреки ожиданиям, практически не сокращается.

Другая тенденция — рост интереса к "облачным" технологиям в Data Capture. Раньше они были не так популярны в бизнесе, так как технологии распознавания и потокового ввода данных в основном использовали крупные корпорации. Сейчас они набирают популярность не только у среднего, но и у малого бизнеса, частных предпринимателей. Они используют мобильные "облачные" технологии в бизнесе, например, для обработки инвойсов. В России этот тренд не очень сильно заметен, но наблюдается во всем мире. И, судя по всему, он коммодитизирует рынок Data Capture.

— Какие задачи могут решать экспертные системы, имеет ли смысл интегрировать в них технологии понимания и анализа текстов на естественном языке?

— Экспертные системы научились более или менее работать со структурированной информацией, которая составляет лишь 20% данных, хранящихся в компаниях. А вот что делать с неструктурированной информацией — это отдельный вопрос. Обрабатывать ее и быть поставщиком структурированных данных для дальнейшей работы экспертной системы может семантическое ПО.

Чаще всего экспертные системы рассматриваются как инструмент поддержки принятия решений. Системы искусственного интеллекта (к которым относятся семантические системы) также помогают автоматизировать ежедневные бытовые, рутинные операции и в классическом понимании могут называться экспертными системами. Например, есть такая простая на первый взгляд задача, которую раньше мог решить только человек,— это распределение платежей по статьям (аллокация платежей). Ее сегодня помогает решить программное обеспечение со встроенным семантическим анализатором.

Другие сценарии, связанные с обработкой текстов на естественном языке, в которых могут быть применены экспертные системы,— сокращение рисков банков при выдаче кредитов и работе с договорами, обработка обращений граждан в госорганы и оптимизация работы техподдержки, анализ проектно-сметной документации, одним словом, все те задачи, которые связаны с обработкой большого объема текстовой неструктурированной информации.

Интервью взяла Светлана Рагимова

Вся лента