Фотографии, на которых люди улыбаются, открывают рот, смотрят в сторону, для биометрической идентификации не подходят. Не годятся снимки, сделанные без структурированного освещения, или когда человек в шляпе, очках, с сигаретой во рту. Мешает неоднородный фон — если снимок сделан на улице, заполненной людьми, он тоже, скорее всего, окажется непригоден.
После 11 сентября 2001 года в мире стала широко применяться биометрическая идентификация, в том числе по фотографиям с помощью систем видеонаблюдения. Однако эта технология не позволяет проводить действительно эффективную идентификацию при неструктурированном (естественном) освещении, в большом потоке людей и прочих "полевых" условиях.
Российская инжиниринговая компания "Вокорд", профинансированная фондами "Лидер-инновации" и "С-Групп Венчурс" (созданными при участии капитала РВК), разработала систему видеонаблюдения, способную проводить биометрическую идентификацию по трехмерным моделям человеческих лиц. Модели в реальном времени создает сама система. По существу, проект Vocord FaceControl 3D представляет собой метод быстрого построения трехмерных моделей динамически меняющихся объектов.
Уже существует лабораторный прототип — металлическая рама, к которой с двух сторон крепятся две пары видеокамер высокого разрешения. Работая в связке, две стереопары хорошо покрывают всю поверхность лица — даже если человек сильно повернул голову, "слепых пятен" не будет.
"Использование рамы не принципиально, стереокамеры могут крепиться, например, на стойках, вмонтированных в турникеты метро. Или на кронштейнах сбоку от дверей, через которые идут люди. Наша система может применяться в местах массового скопления людей — это стадионы, транспортные узлы, бизнес-центры", — добавляет коммерческий директор "Вокорда" Николай Соколов.
Камеры подключены к серверу, который в два этапа производит обработку видеоизображений. На первом этапе определяется, что в зоне контроля появился объект, оценивается его форма, размер (программа распознавания обрабатывает сигнал с частотой 10 кадров в секунду). Если параметры обнаруженного объекта подходят под критерии лица человека, система переходит ко второму этапу.
На втором этапе осуществляется построение детальной 3D-модели. Модель основана на наборе статистических знаний о лице человека и выглядит как сетка из нескольких тысяч узлов. Алгоритм идентифицирует на снимках с камер ключевые точки лица (край глаза, кончик носа и т.п.), затем определяет их взаимное расположение — находит векторы человеческого лица. В соответствии с этими векторами алгоритм выстраивает узлы сетки. Затем "натягивает" на получившуюся сетку текстуру — плоское изображение лица с фотографий, сделанных камерами. Таким образом, система нечувствительна к мимическим изменениям (улыбка, открытый рот) и дополнительным деталям (очки, усы), то есть позволяет построить "чистое лицо человека" с нейтральным выражением. Сейчас общее время построения составляет примерно полторы секунды, разработчики планируют улучшить этот показатель.
Когда модель построена, ее можно использовать для распознавания. Распознавание производится камерами, рассредоточенными по всей области наблюдения. Изображения с камер, фиксирующие лица людей, сопоставляются с данными построенной 3D-модели. Результат такого сопоставления оказывается точнее, чем при использовании простой фотографии. Подробнее об этом рассказал Олег Ушмаев, доктор технических наук, ведущий научный сотрудник Института проблем информатики РАН: "Основная проблема идентификации по фотографиям — чувствительность к положению головы и освещению. Использование 3D-моделей вместо фотографий позволяет устранить первый фактор полностью и частично второй. 3D позволяет не обращать внимания на визуальные искажения формы, происходящие из-за изменения освещения или за счет макияжа.
Первой в России идентификацию по 3D моделям лица осуществила компания A4Vision, которая сейчас является частью американского биометрического мейджора L-1 Identity Solutions. Они использовали одну камеру и активный структурированный свет. Известная проблема такого решения — самый обыкновенный макияж, поэтому женщины идентифицировались плохо. "Вокорд" делает 3D реконструкцию на основе изображений в видимом диапазоне, что честнее, чем структурированный свет, но требует минимум две камеры высокого разрешения. Отсюда вытекают минусы: стоимость камер и необходимость их жесткой фиксации друг относительно друга. Впервые такой подход был предложен в 2005 году компанией Geometrix, но стартап не выжил. В то время не хватило ни разрешения камер, ни базовых технологий распознавания по лицу. И то, и другое за пять лет реально сильно продвинулось вперед".