«ИИ сегодня — это не только про большие языковые модели»
Максим Коновалихин — об альтернативных сценариях работы c данными
В 2024 году правительство должно запустить новый национальный проект «Экономика данных» до 2030 года. Он коснется всех этапов и уровней работы с данными. Старший вице-президент, руководитель департамента анализа данных и моделирования банка ВТБ Максим Коновалихин рассказал “Ъ”, как в России развивается концепция безопасного объединения данных Data Fusion и почему это важно для бизнеса.
— Как, на ваш взгляд, за последний год изменилась концепция использования больших данных?
— Один из трендов последнего года — развитие больших языковых моделей, или генеративных моделей. Не исключаю, что к 2030 году они могут совершить прорыв, сопоставимый с появлением поисковиков. Однако ИИ сегодня — это не только про большие языковые модели. Они лишь компонент, формирующий развитие больших данных. Для отдельных задач они работают хорошо. Но не обязательно сразу создавать гигантскую платформу, решающую любые задачи — это сложно и дорого. Ряд задач можно решать локально. Мы развиваем AutoML (автоматизированное машинное обучение), большое внимание уделяем развитию управления моделями, занимаемся решением оптимизационных задач, что очень востребовано на рынке. Идя за потребностями бизнеса, мы выбираем комплексный подход, не сводим работу к разработке какой-то одной большой платформы. Также мы берем лучшие open source-решения и затачиваем их под наши нужды. Так движется большинство компаний в мире и по другим направлениям. Никому не придет в голову переписывать ядро Linux, все адаптируют его под себя. Так и с генеративными моделями: не всегда экономически целесообразно все делать с нуля, намного эффективнее просто дотачивать. Наш путь в том, чтобы иметь компетенции по специализации решения, а не по разработке его с нуля. Мы считаем это более эффективным.
— Как на развитие экономики данных влияет развитие ИИ и нейросетей?
— Нужно смотреть на оптимальность решения: сколько это будет стоить, и какую пользу мы из этого извлечем. К примеру, есть двигатель «Формулы-1», который разгоняет машину максимально эффективно, но он невероятно сложен и требует входного бензина высочайшей степени очистки. Но это не значит, что на таком двигателе нужно ездить всем. От того, что другие машины устроены проще, свою задачу они не решают хуже. Примерно так оно устроено и с моделями. Надо подбирать модель под сложность задачи и не надеяться, что один самый сложный и продвинутый подход решит все. Для таких областей, как медицина, транспортная сфера, тех же банков в развитии экономики данных есть огромные возможности, но опираться только на языковые модели в этом не стоит. Нужен баланс.
— По каким принципам должен происходить безопасный обмен данными между крупнейшими игроками для развития рынка данных, их обогащения и обучения рекомендательных алгоритмов?
— ИИ требует больших массивов данных. Сегодня крупные компании извлекают уже 80% результата из своих данных. И для построения более продвинутых сервисов вокруг клиента, развития клиентоцентричных стратегий необходимо расширять знания о своем пользователе, в том числе за счет межотраслевого объединения данных. Однако законодательство накладывает ряд ограничений на их передачу и обработку. Так родилась концепция Data Fusion — безопасного объединения данных с учетом всех требований законодательства. Наша задача — сделать этот процесс операционно эффективным, безопасным и максимально точным при создании моделей. Все эти цели одновременно позволяет достичь технология криптоанклавов: физически и программно-защищенный контур.
— Как работает криптоанклав?
— Данные в криптоанклав могут передаваться из разных отраслей. Доступ к этим данным получает ИИ, который занимается их анализом и обработкой. Для человека эти данные остаются закрыты, что исключает все возможные риски утечки. Мы пошли по пути создания собственного программно-аппаратного комплекса, который может дорабатываться под потребности отраслей.
— Кто уже участвовал в его тестировании?
— Вместе с коллегами из МФТИ и Т1 мы вышли на экспериментальный образец, который по ряду параметров получился эффективнее западных аналогов, особенно в части слепого машинного обучения. Все наукоемкие задачи, которые обычно решает человек, мы смогли отдать машинному обучению. Первые тесты на данных банка дали нам CRM-модели на уровне, сопоставимом с возможностями человека при условии открытого доступа к данным. Сейчас мы сертифицируем комплекс и готовим внутренний пилот с банками группы, а также обсуждаем возможность тестирования промышленного образца на площадке ассоциации «Финтех».
— Как подобная система может помочь финансовому сектору повысить эффективность?
— Например, за счет борьбы с проблемой мошенничества, от которого до сих пор страдает большинство финансовых организаций. Наши эксперименты показывают, чем больше данных передается в криптоанклав, тем точнее он может выстроить модели, например для превентивного выявления мошенников. На уровне одного крупного банка это поможет сэкономить сотни миллионов рублей.