Распознать паспорт

Десять лет назад ученые Smart Engines представили первую систему распознавания российского паспорта для мобильных устройств

Технология на базе искусственного интеллекта, созданная специалистами научно-производственной компании Smart Engines, впервые позволила автоматически вводить данные паспорта, наведя на документ камеру смартфона, и с высокой точностью распознавать паспорта на фотографиях. Благодаря системе у пользователей отпала необходимость тратить время на ручную перепечатку паспортных данных для оформления продуктов и регистрации в сервисах.

Фото: Глеб Щелкунов, Коммерсантъ

Фото: Глеб Щелкунов, Коммерсантъ

Разработка стала отправной точкой для массовой цифровизации услуг: у банков, телеком-операторов и государственных сервисов появилась возможность автоматизировать ввод данных основного документа гражданина. Впервые система была внедрена в банках, а за десять лет существования она стала стандартом дистанционного обслуживания. Как появилась и развивалась технология и какие перспективы видят разработчики систем распознавания сегодня, «Ъ-Науке» рассказал один из ее создателей, генеральный директор Smart Engines доктор технических наук Владимир Арлазаров.

— Как возникла идея распознавания паспортов мобильным телефоном? Что побудило взяться за эту задачу?

— Как раз в те годы, десять лет назад, мобильные телефоны достигли значительного прогресса. Почти у каждого появился смартфон с относительно неплохой камерой. Кроме того, процессоры в тогдашних устройствах уже позволяли осуществлять интересные с научной точки зрения вычислительные операции. Стало ясно, что будущее за мобильными телефонами. В то же время в нашей стране и во всем мире началось бурное развитие финтех-отрасли, появилось удаленное обслуживание. Для него требовалось быстрое и безопасное распознавание документов, удостоверяющих личность,— в первую очередь, естественно, паспорта.

На пересечении этих двух трендов мы увидели возможность сделать что-то новое. Уйти от набивших оскомину планшетных сканеров, которые были громоздкими и медленно распознавали. Забыть о ручном вводе данных на смартфонах и перепечатке данных с фотографий и автоматизировать этот процесс. Словом, изменить мир, решив проблему ввода паспорта. И мы сделали это.

— С какими сложностями столкнулись ваши специалисты при разработке и внедрении технологии?

— Быстрое, точное и надежное распознавание удостоверяющих личность документов — это научный вызов. Мало кто верил, что такой сложный документ, как российский паспорт, вообще можно распознавать при помощи мобильного телефона и тем более делать это в режиме реального времени. Нам пришлось придумывать почти все с нуля, начиная с методов распознавания символов. Старые совершенно не годились для изображений, получаемых с камеры.

С другой стороны, тесты показали, что одного изображения могло быть недостаточно. Дело в том, что изменилась сама сцена: появились блики, дефокус и другие эффекты, отсутствовавшие при распознавании на сканерах. Для того чтобы бороться с этим, мы использовали видеопоток, который позволял накапливать информацию с нескольких кадров.

Однако обработка видеопотока сама по себе требует очень быстрых алгоритмов, и нам пришлось такие создать. В марте 2015 года была представлена первая версия нашей системы. Безусловно, по сравнению с текущей она работала небезупречно — сейчас распознавание паспорта на мобильном телефоне работает на несколько порядков лучше. Уже тогда качество распознавания отдельных фото и даже сканов превосходило все имеющиеся на рынке решения, а для распознавания паспорта в видеопотоке наш продукт стал первым. Наши клиенты уже тогда получили возможность распознавать паспортные данные даже с обычной веб-камеры.

— Что изменилось за десять лет существования технологии? Что вы сделали, если уже тогда были первыми?

— За это время на теме распознавания паспорта были защищены две докторские и семь кандидатских диссертаций. Мы развивали технологию в нескольких направлениях. В первую очередь, конечно же, повышали качество и скорость распознавания. Например, интегрировали в системы уникальные сверхбыстрые 4,6-битные нейросети. Они работают быстрее 8-битной модели на 40% за счет более эффективного использования особенностей центральных процессоров мобильных устройств.

Во-вторых, развивали устойчивость системы к вариативности условий съемки и показу документов, чтобы пользователь мог не утруждать себя поиском удачного ракурса и условий освещения. Мы научили систему распознавать российский паспорт «книжкой», на весу, реализовали распознавание практически в полной темноте, чего никто так и не смог повторить. Кроме того, наши ученые начали работать над автоматическим распознаванием рукописного текста, ведь до сих пор существенное количество действующих паспортов заполнены от руки.

Научить алгоритмы распознавать рукопись непросто. Текущее поколение нашего движка рукописи позволяет решать задачи, которые десять лет и даже пару лет назад считались неразрешимыми. Например, система прекрасно распознает сложные фразы по типу «мишки лишили шиншилл лилии». Напишите это предложение от руки и тогда увидите, в чем сложность. Над распознаванием кириллической рукописи, в том числе слова «шиншилла», безуспешно бились ученые со всего мира. Решить проблему специалистам удалось в ходе исследований почерка Александра Пушкина, которые проводились с помощью нашей нейросетевой архитектуры «Да Винчи». Эта же технология позволяет распознавать рукописные паспортные данные основного разворота и прописки практически при любых условиях освещения и углах съемки.

Параллельно мы двигались и в других направлениях. Во-первых, к увеличению числа поддерживаемых документов. Ведь паспорт — далеко не единственный документ, необходимый в повседневной жизни. В настоящий момент число поддерживаемых шаблонов документов достигает пяти тысяч. И это с возможностью автоматического выбора, множества языков и тому подобного. Во-вторых, паспорт — это еще не один разворот. Поэтому занялись распознаванием и других страниц — в первую очередь страницы со штампом о регистрации по месту жительства. Сначала настроили распознавание печатной прописки, потом рукописной.

Решив эти задачи, мы перешли к новой, пожалуй, еще более сложной: как определить, что паспорт настоящий. Что перед системой не результат фотошопа, не дипфейк, не синтезированный документ, что в нем ничего не изменено. Это представляется проблемой следующего десятилетия, и сегодня мы продвинулись в ее решении гораздо дальше других.

— Были ли интересные истории за время работы над продуктом?

— Разумеется, не обошлось без анекдотов. Одна из моих любимых историй связана с распознаванием рукописного текста. Когда мы занимались сбором данных для обучения искусственного интеллекта, оказалось, что на просторах интернета нет ни одного подходящего датасета кириллической рукописи. Поэтому нам пришлось подготавливать их самостоятельно: взять тетради в линейку и всей командой переписывать стихи Пушкина аккуратным почерком, таким, как обычно заполняют паспорта.

К великому удивлению выяснилось, что у программистов хромает чистописание: многие забыли, как буквы пишутся от руки. Слова «плясали», размеры букв не были соблюдены. Пришлось всем коллективом садиться за прописи — в прямом смысле слова. Все — от студентов-третьекурсников до заслуженных докторов наук — сидели и старательно заполняли заготовки каллиграфическим почерком. Ну или приближенным к каллиграфическому.

В результате нам удалось собрать и оцифровать около тысячи заготовок с разными текстами и почерками. Получился неплохой датасет, на котором мы и обучали алгоритмы.

— Чего технология распознавания паспорта добилась в коммерческой области ?

— Система распознавания российского паспорта принесла компании несколько миллиардов рублей. Это был результат, в который не верил никто. Фактически мы сформировали рынок с нуля и довели его до вполне себе прибыльного нынешнего состояния. Параллельно наша компания развила еще несколько направлений, которые тоже касаются распознавания на мобильных устройствах и серверах платежной информации, используемой в ежедневном банкинге.

Сейчас нашими технологиями пользуются 70% жителей России и более 275 млн человек по всему миру. Платежи по QR-кодам, получение загранпаспорта, регистрация самозанятых в приложении ФНС «Мой налог», получение ЭЦП, открытие счета в банке, пересечение границы посредством автогейтов, покупка билетов в авиа- и ЖД-кассах — во всех этих сценариях используются системы распознавания, созданные учеными нашей компании.

— Как отразились на бизнесе западные санкции?

— Нам пришлось серьезно потрудиться. Помогло то, что за несколько лет до этого мы увидели перспективу в технологии WebAssembly, которая позволяла реализовать распознавание не в нативных приложениях, а прямо в браузере. Мы адаптировали свои продукты к этой технологии, и когда наши клиенты из финтеха лишились доступа к зарубежным магазинам приложений, мы сделали так, чтобы граждане не пострадали от недружественных действий третьих стран.

Пользователи практически не заметили разницу между приложением и веб-версией мобильного банка. Но для этого нашим специалистам пришлось решить несколько непростых научных задач.

— Сейчас много разговоров об утечках персональных данных. Не боитесь ли вы подобных рисков?

— Напротив, наша технология обеспечивает безопасную обработку и не несет рисков утечки персональных данных и конфиденциальной информации. Система работает строго в контуре между банком и клиентом, и доступ к чувствительной информации есть только у них. Никакие третьи стороны, в том числе и мы сами, разумеется, доступа к этим данным не имеем.

Более того, технология позволяет сделать так, чтобы компания не получала бы даже изображение документа, то есть перевести весь процесс на сторону пользователя. Для того чтобы сделать это возможным, нам было необходимо добиться, чтобы технология работала безотказно и не требовала сторонней верификации и тем более ручной корректировки данных. Пять лет назад наша система смогла обогнать человека по точности ввода, а сейчас превосходит его уже в разы. Тем самым у нас получилось исключить сразу две болезненные точки: человеческий фактор и необходимость передачи данных.

— Еще один вопрос, связанный с безопасностью. Если компания не имеет доступа к изображениям документов, то где ваши специалисты брали данные для обучения нейросетей?

— Для того чтобы эффективно обучать наши сети, мы создали собственную школу синтеза изображений. Накопленных до настоящего времени наборов данных недостаточно для комплексного исследования вопросов распознавания документов на мобильных устройствах, поэтому мы делаем такие наборы самостоятельно. В данный момент они позволяют обучать алгоритмы любому языку и документу, исключая риск раскрытия реальных данных.

Помимо этого, мы первыми в своей сфере поделились с научным сообществом такими пакетами данных. Это серия датасетов MIDV. Мои коллеги не останавливаются и продолжают создавать такие датасеты и публиковать их.

— Вы неоднократно упоминали науку, защищенные диссертации. Какую роль, на ваш взгляд, наука играет в компании?

— Если хочешь создать что-то по-настоящему новое, необходима наука. Ее можно «списать», заняв у других, а можно развивать самостоятельно. Мы осознанно выбрали именно второй путь. Научный подход помогает нам решать сложнейшие технологические задачи, и без него мы не видим будущего. Наука важна для нас еще и с точки зрения формирования своей школы — она позволяет создать коллектив единомышленников, пополнять ряды.

Наш главный принцип происходит еще из советских времен: не делать секрета из научных достижений. Все придуманные нами методы и алгоритмы опубликованы и продолжают публиковаться. Наши специалисты пишут статьи, защищают диссертации, которые также находятся в публичном доступе. С момента основания сотрудники компании опубликовали более 350 научных статей и докладов и не снижают темпы публикационной активности.

Конечно же, некоторые ключевые технологии мы защищаем от копирования через патентование — как в России, так и за рубежом. Но опять же не делаем из этого тайны. В наших статьях написано, как разработать систему распознавания паспорта, все технологии подробно описаны.

— Не боитесь, что кто-то попытается их воспроизвести?

— Нисколько. Пока будут повторять, мы продвинемся далеко вперед. И те, кто будет воспроизводить, в лучшем случае окажутся с системой, которая была у нас несколько лет назад.

— Сейчас много разговоров о том, что ПО должно поддерживать отечественные операционные системы и процессоры. Какой позиции на этот счет придерживается компания?

— Девять лет назад мы начали сотрудничество с МЦСТ и ИНЭУМ им. И. С. Брука и успешно продолжаем его до сих пор. Все наше программное обеспечение не просто готово к работе на отечественных платформах — оно очень хорошо оптимизировано под российские процессорные архитектуры «Эльбрус», «Комдив» и Baikal.

Если речь об отечественных операционных системах, то изначально наши системы поддерживали не только iOS и Android, но и Linux и Windows. Поэтому добавление еще одной операционной системы — российской — не вызвало у нас никакого труда. И мы считаем это абсолютно правильным шагом. В данный момент помимо названных мы поддерживаем ОС «Аврора», ОС «Эльбрус», РЕД ОС, Astra Linux, ОС «Атликс», ОС «Альт Линукс».

— Какие у компании планы на будущее? Чем планируете удивить?

— Во-первых, в области повышения качества нет предела совершенству, и мы точно знаем, как его повысить. Конечно, для большинства процессов ввода текущего качества уже достаточно. Однако для проверки подлинности документов его не может быть мало. Поэтому мы и дальше будем улучшать наши технологии в этом направлении.

Во-вторых, мы собираемся и дальше совершенствовать инструменты выявления подделок. Сейчас спрос на это со стороны бизнеса и общества как никогда велик. Например, один из наших клиентов недавно объявил, что с помощью искусственного интеллекта удалось предотвратить 10 тыс. мошеннических атак. Для нас это самая большая похвала. Ведь задача антифрода — защищать людей и организации от злоумышленников и, что еще более важно, предупреждать новые виды атак. Для этого сегодня уже недостаточно быть на шаг впереди мошенников — необходимо опережать их на три-четыре шага. Не зря Кэрролл в «Алисе в Зазеркалье» писал, что нужно бежать со всех ног, чтобы только оставаться на месте. А чтобы куда-то попасть, надо бежать как минимум вдвое быстрее.

В-третьих, мы планируем совершить очередную революцию. Есть много задач распознавания, которые считаются невыполнимыми для обычных мобильных телефонов, и у нас есть планы это опровергнуть.

Подготовлено при поддержке Smart Engines