"Задачи у госслужб и коммерческих предприятий очень похожи"
Инновации
Государственные компании пока заняты повышением эффективности своей работы, а часто и просто тем, что налаживают процессы. Корпорации хотят большего. ЮРИЙ КОРЮКИН, генеральный директор "ABBYY Россия", рассказывает, зачем и тем и другим могут понадобиться интеллектуальные программы, понимающие естественный язык.
— Какие тенденции в области управления информацией вы сегодня наблюдаете?
— Самый главный тренд — использование лингвистическо-семантического подхода и применение технологий искусственного интеллекта для обработки и управления информацией. Мы участвуем во множестве отраслевых мероприятий в этой области: конференций, круглых столов и т. д. Буквально на днях я получил приглашение сделать доклад на одном из таких событий, изучив список тем, которые уже были заявлены для обсуждения на круглых столах, обнаружил, что шесть из них посвящены именно этим технологиям — искусственный интеллект как инструмент для управления информацией.
— Почему именно эта тема так активно обсуждается сейчас? Ведь инструменты для таких задач уже давно существуют.
— Есть такие исследования, на которые ссылаются все в самых разных контекстах, их результаты можно обнаружить почти в каждой презентации. Они говорят о том, что 90% всей информации в мире было создано за последний год, каждый 12-15 месяцев весь объем данных удваивается. А еще интересно, что 80% данных — неструктурированные, и, как следствие, их трудно искать, анализировать и обрабатывать.
Об этом цифровом цунами говорят постоянно уже не первый год. Все понимают, что информационный поток захлестывает. Но сегодня из всего этого нагромождения реально используется 0,5-1% данных, косвенным образом приносят пользу не более 10%. Но это совсем не означает, что остальные — мусор. Напротив, там скрыто множество потенциальных инсайтов про бизнес, а также сведений о возможных рисках. И вот по этому вопросу — какое количество полезных данных скрыто во всех этих петабайтах — нет ни одного исследования: может быть, 10%, а может быть, 50% или даже 90%? Мы пока не имеем никакого представления об этом, но все чувствуют, что польза в них есть.
И, вот о том, как работать с остальными данными, имеющимися во внутренних информационных системах и во внешних источниках, связанных с ними, ведутся активные дискуссии в отрасли последние пару лет. Компаниям нужны системы, которые позволят быстро обрабатывать в том числе неструктурированную информацию, повышать эффективность бизнеса, конкурентоспособность, сокращать риски.
— Почему же так получается, что лишь до 1% данных реально используется? Почему остальные 99% не обрабатываются в тех же системах, что уже применяются?
— Организации, в том числе государственные, работают только с той информацией, которую успевают усвоить, с которой знают, как обращаться. Поток настолько огромный, что со всеми данными просто не справляются. К тому же большую часть данных сложно превратить в нечто полезное старыми методами. Действительно, уже существуют определенные подходы к управлению информацией, которые решают задачу с тем или иным процентом успеха. Занимаются этим такие гиганты, как HP, IBM, локальные разработчики из различных стран. Это системы, которые опираются на статистические методы, оперируют набором ключевых слов, отслеживают частотность их использования, в какой-то мере учитывают синонимию. Мы же движемся в сторону понимания естественного языка, так называемого искусственного интеллекта. Это следующая ступень эволюции. Многие компании работают над тем, чтобы выпустить продукты, основывающиеся на семантике, а не только лишь на статистике. Но на сегодняшний день готовая технология понимания и анализа текста на естественном языке, сочетающая синтаксис, семантику, статистику, есть только у ABBYY — это Compreno. С ней увеличивается качество анализа (точность и полнота) значимой для бизнеса информации. Компания занималась ее разработкой более 20 лет и продолжает ее развивать.
— Но так ли важно понимать язык для того, чтобы эффективно управлять информацией? Может быть статистики вполне достаточно для этого?
— Один из минусов систем, опирающихся на статистические методы,— необходимость их долгой настройки под конкретную задачу конкретного заказчика. Их внедрение может занять много времени. Семантические системы более гибкие и универсальные, адаптируются достаточно легко и в меньшие сроки к любой задаче.
К тому же понимание языка в некоторых случаях дает неожиданные эффекты. Мы тестировали Compreno в одной американской компании на базе из 6 тыс. документов, которые необходимо было классифицировать — условно говоря, разложить по правильным папкам. Эти документы были уже классифицированы до того вручную, и требовалось показать, насколько автоматическая классификация совпадет с уже сделанной. Мы обучили Compreno и провели эту работу. Оказалось, что полученный результат не совпал с ожидаемым. Начали разбираться вместе с заказчиком, и оказалось, что его сотрудники неправильно классифицировали документы изначально. Это означает, что некоторые важные бумаги попросту попадали не в те папки и из-за этого терялись, их не могли найти. Семантическая система помогла выявить ошибки в логике классификаторов, статистическая — не могла бы этого сделать, просто продолжала бы повторять эти ошибки, подражая имеющемуся примеру. К тому же у статистических методов есть погрешность, которая может дорогого стоить, если из-за этого важные документы окажутся не в той категории, где должны быть. К примеру, слово "oil" может относиться к пищевой промышленности и к нефтедобывающей. Статистическая система не всегда может распознать, в какую категорию отправлять документ. Соответственно, потребуется много ручной работы, чтобы результат был приемлемым. Семантические методы позволяют в автоматическом режиме понять, куда отнести документ.
— Насколько востребована эта система в настоящее время? Прошел уже год с момента ее анонсирования.
— Compreno — сложная технология, к тому же новая, клиенты пока присматриваются к ней. Год назад мы представили решение в области корпоративного поиска информации, а сейчас — решение для извлечения информации из массивов неструктурированных данных. Мы ведем несколько пилотных проектов. К примеру, в одном крупном госхолдинге тестируем возможности интеллектуального поиска. В некоторых нефтяных компаниях Compreno опробуется для составления аналитических отчетов: из неструктурированной информации извлекаются данные, которые могут давать подсказки менеджерам при принятии решения. В одной крупной компании мы начали пилотный проект по использованию Compreno для аллокации платежей. Сейчас эта функция выполняется вручную: когда приходит платеж, сотрудник изучает сведения о назначении платежа и присваивает платеж к соответствующему договору и клиенту в ERP-системе.
Так что сегодня мы видим, что задача интеллектуальной обработки информации, которую решает Compreno, является неотъемлемой частью рынков ECM и ERP, текстовой аналитики, поиска. Решения на базе нашей технологии могут быть встроены в различные информационные системы, дополняя их возможностями извлечения, анализа и поиска нужной информации. И у этого направления есть перспективы.
— Какую эффективность показывает эта система, если опираться на результаты пилотных проектов?
— Результат применения зависит от того, какой класс задач решается с помощью Compreno. К примеру, вы можете в разы сократить сроки обработки входящих сообщений, в частности запросов от населения в госструктуру, вопросов в службу технической поддержки компании и т. д. Решения позволяют оптимизировать процесс извлечения нужной информации из неструктурированных документов (договоров, писем и т. д.). Еще один пример, актуальный для банков,— снижение рисков при выдаче кредитов юридическим и физическим лицам за счет получения полной и качественной информации о них. Без применения технологии эта задача решалась вручную и отнимала много времени.
— Какие задачи могут решаться с помощью семантических систем в госорганизациях? Отличаются ли они от тех, что есть у частных компаний?
— В целом задачи у госслужб и коммерческих предприятий очень похожи. Классификация документов, извлечение данных, выявление связей между документами и т. д.
К примеру, мы ведем проект в Госдуме, куда поступает огромный поток обращений граждан. Очень важно, чтобы реакция на каждое такое обращение укладывалась в законодательные регламенты. Люди, которые сортируют корреспонденцию и отправляют ее соответствующим специалистам, просто не справляются. Автоматическая система позволяет решить эту проблему.
В коммерческих компаниях большей популярностью, чем в государственных, пользуются задачи анализа и извлечения нужной информации из массивов неструктурированных документов. Компания может выделить в тексте конкретные объекты и связи между ними (например, имена людей и их паспортные данные, названия компаний и их ИНН, ОГРН и другие характеристики). В результате сформировать аналитический отчет, внести данные в СЭД/ECM, биллинговые системы и т. д.
В целом коммерческие компании и государственные структуры сегодня, особенно в России, заняты тем, чтобы повышать эффективность текущих ИТ-систем. И решения в области интеллектуальной обработки информации как раз помогают в этом.