Не ходя вокруг да «Окулус»
Роскомнадзор нашел разработчика для системы поиска противоправного контента
Структура Роскомнадзора выделила 57,7 млн руб. на разработку системы «Окулус», которая на основе нейросетей будет анализировать фото, видео и тексты на сайтах, в соцсетях и мессенджерах на предмет запрещенной информации, в том числе пропаганды гомосексуализма, изготовления наркотиков и оружия. Система должна появиться уже к декабрю. Эксперты сомневаются, что выделенной суммы хватит на разработку, а исполнитель сможет уложиться в срок — только для обучающих дата-сетов для нейросети нужно гораздо больше времени.
Центр обработки данных
Фото: Юрий Мартьянов, Коммерсантъ
Разработкой системы «Окулус» для «Главного радиочастотного центра» (ФГУП ГРЧЦ, структура Роскомнадзора) займется ООО «Эксикьюшн Эр Ди Си», компания получит на реализацию проекта 57,7 млн руб. Информация об этом опубликована на сайте госзакупок 15 августа. Сделать систему нужно к 12 декабря.
По технической документации, «Окулус» будет в реальном времени анализировать изображения и видео, переписки в чатах и материалы каналов мессенджеров, URL-адреса и другие данные на предмет запрещенной информации.
Система должна находить запрещенный контент не только в текстовом виде, но и в «сценах, сочетаниях предметов, композициях образов, лицах, статике и динамике движений».
По данным «СПАРК-Интерфакс», ООО «Эксикьюшн Эр Ди Си» (Execution RDS) учреждено в 2014 году с уставным капиталом 10 тыс. руб. По итогам 2021 года компания получила 229 млн руб. выручки при 23 млн руб. чистой прибыли. Возглавляет ООО Анастасия Юрикова, 95% принадлежит Артему Пономореву, а 5% — Сергею Браилко. Судя по данным «СПАРК-Интерфакс», компания никогда не была исполнителем по госконтрактам. Execution RDS реализовывала проекты по внедрению в российских компаниях решений на базе софта немецкой SAP, следует из информации на ее сайте.
По условиям тендера подрядчик обязан не только создать систему, но и предоставить ГРЧЦ дата-сеты, которые позволят определять запрещенную информацию. Исполнитель также поставит ГРЧЦ размеченные наборы данных для обучения модели распознавания лиц «в объеме не менее 100», так как в «Окулус» должен быть реализован «функционал каталогов определяемой символики, сцен и действий, персоналий».
Мощность системы должна составить 200 тыс. изображений в сутки, это значит, что в секунду «Окулус» будет анализировать два кадра или картинки.
По словам директора по цифровым технологиям ГРЧЦ Константина Буланова, для стабильной работы системы понадобится не менее 48 серверов, оснащенных графическими ускорителями, а поиск запрещенного контента будет осуществляться благодаря нейронным сетям, работающим на основе глубокого машинного обучения.
В список запрещенного контента, который призвана анализировать система (содержится в приложении к техдокументации), помимо материалов с признаками экстремизма и терроризма, призывов к массовым незаконным мероприятиям, выражения явного неуважение к обществу, государству и официальным символам РФ, информации о способах совершения суицида и методах изготовления наркотиков, вошли также пропаганда нетрадиционных сексуальных отношений и демонстрация употребления табачной продукции.
Собеседник “Ъ” в крупной IT-компании, знакомый с содержанием технического задания проекта, говорит, что на деле реализовать такую систему не только в столь короткий срок и за 57 млн руб., но и в принципе практически невозможно:
«Исполнителю ставят не конкретные цели, задачи и требования, которые можно выполнить при доработке уже существующей и работающей системы, а просят спроектировать принципиально новое решение, что невозможно сделать в обозначенный срок».
В то же время гендиректор Smart Engines Владимир Арлазаров полагает, что «на текущем уровне развития IT» заявленные задачи можно решать с качеством порядка 90%, то есть с 10% ошибок. «Удивление вызывают сроки: только сбор репрезентативных обучающих дата-сетов может занять гораздо больше времени». Современные модели искусственного интеллекта, говорит эксперт, классифицирующие поведение человека в видеоряде, обычно обучаются на данных объемом около 1 млн роликов.