Общение с предсказаниями
Как работает предиктивная аналитика
По оценкам Reportlinker Consulting Group, мировой рынок решений предиктивной аналитики с $12,4 млрд в 2020 году вырастет до $40,3 млрд в 2027-м. В России все больше компаний видят в аналитике, основанной на собранных больших данных и методах машинного обучения, практическую пользу. К примеру, согласно подсчетам McKinsey, внедрение решений предсказания отказов промышленного оборудования может увеличить срок его службы на 20–40% и сократить время простоев на 30–50%. Как это работает, сколько это стоит и кто этим занимается в России?
Фото: 500 px / Getty Images
В чем смысл
Предиктивная (прогностическая) аналитика используется уже практически во всех отраслях: от финансового сектора и ритейла до промышленности и логистики. Банкам и страховщикам она позволяет минимизировать риски, в промышленности — сокращать потери от простоя оборудования и затраты на ремонт, в недвижимости и градостроительстве помогает грамотно рассчитывать нагрузку на инфраструктуру, изменение транспортных потоков, востребованность локации у целевой аудитории, перечисляют в МТС: «В телеком-бизнесе — позволяет автоматически проанализировать сотни тысяч потенциальных локаций для новых базовых станций и спрогнозировать их окупаемость».
Возможности предиктивной аналитики открывают для себя все больше компаний, получая очевидные конкурентные преимущества. Например, увеличивается прибыль благодаря автоматизации рутины и оптимизации рабочих процессов и достигается экономия на аварийном ремонте оборудования с помощью алгоритмов. «Машинное обучение активно применяется и в маркетинге, повышая его эффективность. Современные потребители становятся все более требовательными: им важно не только качество продукта, но и своевременная коммуникация от бренда с релевантным предложением,— рассуждает Роман Стятюгин, руководитель аналитических сервисов PREDICT, VK.— Так, алгоритмы помогают бизнесу существенно улучшить клиентский опыт за счет персонализированного обращения к покупателю в актуальный момент времени в удобном канале».
Прогностическая аналитика используется и для того, чтобы верифицировать гипотезы перед запуском продукта: определить объем потенциальной аудитории, ценность технологического решения и возможность его реализации, продолжают в МТС. В результате еще до запуска компания получает представление о емкости рынка, потенциале продукта и необходимых затратах. Это позволяет отказаться от заведомо неэффективных гипотез и оптимально распределить бюджет для разработки продуктов.
«Маленькие компании могут вырасти в разы, если смогут использовать предиктивную аналитику для получения весомого конкурентного преимущества,— размышляет директор по анализу данных X5 Group Михаил Неверов.— У больших компаний в разы вырасти, скорее всего, не получится, но рост прибыли на несколько процентов — а это могут быть миллиарды рублей — вполне реален».
Что нужно для эффективности такой аналитики, какие этапы проходят данные, прежде чем их можно использовать в бизнесе, и во сколько это может обойтись?
Собираем и храним
С развитием технологий и цифровизацией количество устройств, которые могут генерировать данные автоматически, увеличивается. Так, по данным Ericsson Mobility Report, количество подключенных устройств IoT/M2M в мире (без учета технологий short-range — Wi-Fi, Bluetooth и др.) увеличится с 1,7 млрд в 2020 году до 5,8 млрд в 2026-м. Данные с многих из этих устройств передаются по сети на серверы в хранилища данных, где обрабатываются и сохраняются в удобном для предиктивной аналитики виде. «Это может быть количество кликов пользователя на сайте, стоимость чека из магазина, температура холодильника или видео камеры наблюдения»,— говорит Михаил Неверов. «Или продажи различных товаров в магазине за день, информация о количестве входящих звонков в колл-центре за каждый час, время ответа чат-бота в чате мобильного приложения за каждую минуту»,— продолжают в сервисе ETNA, разработке Центра технологий ИИ «Тинькофф».
Перед сбором информации нужно определиться с задачами и целевыми действиями, которые важно прогнозировать в рамках конкретного проекта, объясняет Роман Стятюгин. Например, ритейлеры, говорит он, часто хотят заранее понимать, как клиенты отреагируют на предложение в определенной товарной категории, и оценить, насколько предлагаемая скидка влияет на принятие решения о покупке. Банкам важно знать, кто заинтересован в открытии новой кредитной карты, а кто — в инвестиционных инструментах. В этом случае для релевантного предложения от бренда понадобится информация о профиле клиента и трансакционном взаимодействии с ним. В промышленности также достаточно часто используют аналитические сервисы: они помогают предупредить потенциальные аварии и избежать остановки производства и убытков. Специальные датчики отслеживают разные параметры работы и состояния станков, а системы предиктивной аналитики оценивают полученные данные и прогнозируют, какие детали могут выйти из строя.
«Чтобы использовать эти данные, необходимо изменить процессы внутри организации таким образом, чтобы их сбор и накопление стали частью ежедневной работы, не влияя на нее,— подчеркивает Николай Меркулов, заместитель директора по анализу данных и моделированию компании Platforma.— Это может быть использование единой серверной офисной системы вместо разрозненных таблиц на локальных компьютерах, установка датчиков, сбор данных с существующего оборудования. Главное, чтобы эти данные собирались в едином хранилище и по единым стандартам».
Собирать, хранить и обрабатывать данные бизнес может как в собственных системах, так и в частном облаке или в публичных облачных сервисах. Для работы с данными могут использоваться разные решения: от классических баз данных до in-memory технологий и платформ интернета вещей для сбора данных с датчиков, ML-платформ для обучения и тестирования моделей, указывает господин Стятюгин.
Что дальше?
Данные из разнообразных источников в сыром виде агрегируют в data lake — «озере данных» (хранилище данных в естественном или необработанном формате). Их структурируют, фильтруют, проверяют качество и собирают в «витрины данных» — таблицы, из которых алгоритм берет статистику, объясняют в МТС: «Далее строят модели, которые уточняют имеющиеся данные или достраивают знание о неизвестных признаках».
В итоге финальный набор данных становится меньше, чем исходный. И ключевая задача здесь — сохранить ценные инсайты, несмотря на обработку и сокращение объемов признаков, рассуждает господин Стятюгин. После обработки данных нужно подобрать прогностическую модель (алгоритм) и признаки, которые она будет использовать. «Подбор признаков и моделей — большая тема, которой посвящают многочасовые лекции в технических курсах,— говорит Михаил Неверов.— Есть автоматизированные подходы (AutoML), которые решают эту задачу, но чтобы получить максимальную точность, нужна помощь специалиста».
Затем наступает этап эксперимента, после чего аналитики исследуют результаты, детально изучая прогнозы, распределение ошибки, важность признаков с точки зрения модели. «Это нужно, чтобы понимать, чего можно ожидать от прогнозов в будущем,— поясняют в ETNA.— Например, если победившая в результате сравнения метрик модель не учитывает информацию об акциях на йогурты, то нужно понимать, что в будущем она не сможет предсказать пик спроса из-за соответствующей акции». В случае успешного прохождения испытаний предсказательная модель внедряется для регулярного использования или встраивается в существующий сервис, резюмирует Николай Меркулов.
Работа над ошибками
Насколько можно быть уверенным в том, что алгоритмы не ошибутся и подскажут верное решение? Какова вероятность ошибки?
Предиктивная аналитика, как и вся работа с большими данными, строится на статистике и гипотезах, а значит, у нее всегда есть некоторая погрешность, замечают эксперты. Задача — свести ее к минимуму. «Можно быть абсолютно уверенным, что алгоритмы ошибутся, весь вопрос — в величине этой ошибки,— согласен господин Неверов.— Абсолютно точных прогнозов не бывает, только если для тривиальных задач. Люди тысячи лет учатся предсказывать погоду, но точных прогнозов мы так и не получили».
«Вероятность ошибки в алгоритмах во многом зависит от области применения аналитики. При разработке и обучении алгоритмов часто проводятся тесты на ретроспективных данных, а после уже тесты на реальных клиентах,— указывает директор по управлению корпоративными данными "МегаФона" Сергей Федорченко.— И только после этого происходит масштабирование».
Например, системы распознавания лиц используются для поиска правонарушителей или автоматической оплаты по лицу — цена ошибки в таких системах крайне высока. Разработчики таких решений стремятся свести погрешность практически к нулю. При создании скоринговой антифрод-модели приоритеты расставлены иначе: поиск потенциального мошенника с максимальной точностью и максимально оперативно важнее, чем не зацепить при этом порядочных пользователей, поясняют в МТС: «При условии, что система поможет определить 80% мошенников и фродеров, клиенты готовы на погрешность в 1–2%».
Финансовая сторона
На вопрос, насколько предиктивная аналитика дорогая услуга, эксперты не дают однозначного ответа. Учитывается множество факторов. Все зависит от того, что именно требуется: единичный отчет, регулярное получение услуги, получение продукта или сервиса, в котором есть функционал предиктивной аналитики, или построение функции предиктивной аналитики с нуля внутри компании, перечисляет Николай Меркулов. По его словам, многое зависит от зрелости процессов в компании заказчика: есть ли у него данные, надо ли их покупать, есть ли у него готовый вопрос, который можно задать алгоритму, или сначала этот вопрос надо найти: «В результате стоимость предиктивной аналитики может составлять от нескольких сотен до нескольких миллиардов рублей».
«Важно понимать: чтобы делать проекты с предиктивной аналитикой, в компании должна быть сформирована хоть какая-та культура данных, так как без наличия хороших данных прогнозы не построить,— размышляет Михаил Неверов.— Если данных нет, то нужно начать с построения процессов их сбора и хранения. Это тоже потребует финансовых вложений. И только затем, когда накопятся данные хотя бы за пару месяцев, можно браться за предиктивную аналитику».
Если создавать инфраструктуру предсказательных сервисов с нуля — собирать данные, закупать серверы для их хранения, строить IоT-платформы и нанимать команду, то процесс будет очень дорогим. Речь пойдет о сотнях миллионов рублей, оценивает Роман Стятюгин. Основные причины относительно высокой стоимости решений — высокий порог входа в индустрию. Big Data — одна из самых закрытых областей IT, для которой требуются специальная инфраструктура, дорогостоящие дефицитные специалисты и огромный — в десятки петабайт — объем данных. Стартовые инвестиции исчисляются сотнями миллионов рублей, согласны в МТС с коллегой из VK.
Чтобы сделать технологии доступнее, игроки предоставляют готовые аналитические сервисы по подписке. «Это позволяет даже небольшим бизнесам подключиться к уже проверенным сервисам по приемлемой стоимости,— продолжает господин Стятюгин.— Однако это возможно только в тех случаях, когда процессы и задачи между компаниями относительно унифицированы».
Для предиктивной аналитики нужны два ресурса — люди и вычислительные мощности для обработки данных, говорит господин Неверов. Стоимость решений зависит от сложности аналитики, масштаба работ, потребности в кастомизированной проработке запроса, продолжают в МТС: «Например, геоаналитика может стоить примерно от 7 тыс. руб. для малого бизнеса до нескольких десятков миллионов рублей, если речь идет о долгосрочном доступе к платформе GeoEffect, об анализе данных в разрезе одного или нескольких регионов, анализе ретроданных и консалтинге».