Пойми меня, если сможешь
Компания ABBYY 19 лет ведет научные исследования по компьютерной лингвистике и уже потратила на это $80 млн. В марте 2014-го был представлен результат — продукты, помогающие справиться с информационным хаосом.
Программы ABBYY — словари Lingvo и системы перевода — известны практически каждому пользователю. Менее известно, что движок ABBYY OCR умеет превращать в текст документы в формате PDF и вытаскивать его из картинок. Однако настоящей научной проблемой, над решением которой компания работала 19 лет, было научить компьютер понимать смысл текстов, написанных на естественном языке. Эта задача является основной для того, чтобы приблизиться к идеальному качеству машинного перевода. И компания изначально работала над ней именно с такой целью. Но когда решение было найдено, оказалось, что более выгодно использовать такие технологии в другой области — предлагать их корпоративным пользователям. Для начала маркетологи ABBYY решили сконцентрироваться на рынке ECM — Enterprise Content Management, продуктах по управлению контентом предприятия. Если машина умеет хотя бы частично понимать, о чем спрашивает пользователь, это может значительно улучшить качество поиска по любым документам и справиться с информационным хаосом.
Еще пять-семь лет назад эта проблема была знакома лишь крупным корпорациям. Сегодня в куче данных уже сложно найти что-то полезное даже в среднего размера компании. В исследовании IDC Digital Universe Study 2014 говорится: количество данных каждые два года удваивается. В 2013 году было сгенерировано 4,4 зеттабайта информации, в 2020-м будет 44 зеттабайта. Лишь 22% данных, созданных за 2013 год, могут быть полезными и пригодными для анализа и тегирования. В 2020-м эта цифра составит 37% за счет более активного использования правильных инструментов по управлению корпоративной информацией. На этот тренд и рассчитывает ABBYY, выпуская свои продукты на базе технологии Compreno.
В основе Compreno лежит разработка универсального семантического дерева, которое представляет собой иерархию всех понятий, существующих в человеческой речи. Это универсальная карта смыслов, подходящая для любого языка. Она построена от более широких и общих понятий к более узким и специальным. Например, в категорию «мебель» входят понятия «стул» и «стол» и т. д.
ABBYY Intelligent Tagger помогает классифицировать все документы любого формата за счет извлечения из них сущностей (персона, место, организация, денежная сумма и дата) и метаданных (автор, дата создания, формат и др.).
Уже только это позволяет значительно улучшить качество поиска. Плюс к этому, программа ABBYY Intelligent Search понимает смысл поисковых запросов в контексте. Например, мы хотим найти все публикации об уходе Василия Петрова из компании «Рога и копыта». Проще всего выбрать все документы, где упоминается Петров и нужная компания, и набрать в строке поиска «уволился». Система поймет, о чем речь, и найдет также документы, где используются синонимы: «подал в отставку», «написал заявление», «забрал трудовую книжку» и т. д.
Таким образом, из выдачи будут исключены нерелевантные документы и добавлены те, которые в ином случае мы могли бы пропустить.
Кажется это улучшение жизни клерков — мелочь. Но по данным IDC, сотрудники компаний в среднем тратят 9,5 часа в неделю на поиск документов, 8,3 часа на поиск данных для подготовки новых документов, около трех часов на дублирование уже существующей информации, вовремя не найденной ранее. Это значит, что при внедрении качественной системы корпоративного поиска сотрудники могут сэкономить почти 53% времени.