Компания Cognitive Technologies разработала технологию Cognitive Data Fusion, которая позволяет в модели компьютерного зрения эффективно использовать комбинированные данные, поступающие от различных сенсоров (видеокамер, радаров, лидаров и проч.) непосредственно на вычислительный блок.
«В решениях многих зарубежных разработчиков систем автономного вождения обработка данных, как правило, ведется по принципу on-chip — непосредственно на чипах, которые установлены на различных сенсорах, что затрудняет комплексное использование и обработку информации, поступающей со всех датчиков»,— объясняет руководитель департамента разработки беспилотных автомобилей Cognitive Technologies Юрий Минкин. «Это было бы равносильно тому, если зрение и слух у человека не были бы синхронизированы и не дополняли друг друга. Представьте, что машиной управляют одновременно слепой человек, который слышит, и зрячий, но глухой. И еще при этом они между собой не коммуницируют».
Как правило, данные, полученные с радара, позволяют определять точное расстояние до объекта и вычислять скорость его передвижения. Однако радар предоставляет информацию о типе объекта, его размерах и других параметрах, что крайне необходимо для принятия решения о том, является ли каждая конкретная ситуация опасной или нет. К примеру, радар может достаточно точно распознать машину, но засомневаться при распознавании пешехода. Также радар, по сути, не позволяет определять отдельные элементы дорожной сцены, такие как дорожные знаки, разметку и т. д. Информация же, полученная с видеокамеры, напротив, дает достаточно точные координаты объекта, представление о его типе и взаимном расположении относительно других объектов. Кроме того, видеокамера может регистрировать больший класс объектов дорожной сцены: например, сигналы светофора, типы знаков, дорожную разметку и другие факторы.
Интеграция данных, полученных от различных устройств, позволяет восполнить недостающую для понимания текущей дорожной сцены информацию. Если, например, видеокамера верно распознает объект с 80% случаев, то данные, полученные от радара, могут дополнить недостающую информацию и поднять точность детекции до 99% и выше. Комплексное использование данных позволяет объединить всю информацию о скорости, координатах и типе объекта, расстоянии до него, расположении объектов относительно друг друга и их физических характеристиках.
Задача глубокой интеграции данных, полученных от разных сенсоров, довольно сложна. Принцип действия технологии Cognitive Data Fusion схож с тем, как функционирует человеческий мозг, получающий данные от различных органов чувств одновременно. Для решения этой задачи информация, снятая с каждого из датчиков, синхронизируется и приводится к единой системе координат. Затем «сырые» данные поступают в вычислитель, где они комплексно обрабатываются, взаимно обогащая друг друга.
Благодаря такой методике система может выполнять и компенсаторную функцию так же, как когда, бывает, один из органов чувств человека отказывает или выполняет свои функции не полностью, активность других существенно усиливается. Аналогичным образом в таких случаях архитектура Cognitive Data Fusion предусматривает возможность получения более детальных данных о дорожной сцене от других сенсоров. Например, если сигнал от радара детектирует препятствие на пути автомобиля, а видеокамера по каким-либо причинам его четко не распознает, искусственный интеллект оценит эту ситуацию как проблемную и затребует более детальную информацию от видеокамеры. «Когда мы слышим громкий звук и не видим его источника, мы с двойным вниманием смотрим в направлении, откуда раздался звук, пытаясь понять его причину»,— говорит Юрий Минкин.
По словам президента Cognitive Technologies Ольги Усковой, технология Cognitive data fusion уже апробирована на тысячах километров российских дорог, а ее внедрение позволит снизить уровень аварийности беспилотного автомобиля на 20–25%.
Николай Челнов