Данные формируют реальность
Виктор Кантор — о роли Big Data в развитии цифровых экосистем
По разным прогнозам, общий объем данных, создаваемых, собираемых, копируемых и потребляемых во всем мире, к 2025 году превысит 180 ЗБ. О том, как бизнес в рамках цифровой экосистемы может эффективно использовать аналитику больших данных для построения рекомендательных алгоритмов, скоринга и оптимизации затрат, рассказал “Ъ” директор центра Big Data МТС Виктор Кантор.
Директор центра Big Data МТС Виктор Кантор
Фото: Пресс-служба МТС
— Как сегодня развивается рынок больших данных в России?
— Есть два подхода к монетизации Big Data: применение внутри компании для повышения эффективности и улучшения клиентского опыта либо разработка решений для других компаний. Если говорить о последнем, то этот сегмент сильно фрагментирован. Например, сегмент рекламы сегодня не может развиваться без персонализации на основе Big Data, но он обычно рассматривается отдельно как рынок именно рекламы. Таким образом, бОльшая часть рынка Big Data, по сути, скрыта, если мы не говорим про очевидные вещи, например продажу геоаналитики или скоринговых моделей. Этот очевидный сегмент растет не очень быстро, но вот эффекты от использования Big Data в компаниях растут гораздо быстрее.
В экосистеме МТС есть часть команды Big Data, работающая над повышением эффективности конкретных вертикалей, например телекома, финтеха, рекламы и др. В каждом конкретном бизнесе мы видим результаты использования Big Data. Также есть централизованная часть Big Data, которая отвечает за всю работу с данными: сбор, построение профилей наших клиентов, аналитику и обучение прогнозных моделей. Это позволяет в целом предлагать клиентам лучший опыт. Например, мы видим, какой фильм клиент посмотрел в KION, и на основе этого можем предложить ему книгу в сервисе «Строки». Аналитика больших данных также позволяет нам оценивать развитие компании в целом, положение в конкретной отрасли относительно конкурентов и перспективы дальнейшего движения.
— Можете привести пример повышения эффективности в конкретной бизнес-вертикали МТС за счет применения больших данных?
— Очевидный пример – телеком-бизнес. Нам необходимо поддерживать эффективность нашей сети связи и расширять ее. Для этого нужно определять потенциал размещения новых базовых станций в зависимости от их конфигурации и особенностей конкретной локации (населения в окрестностях и его соцдем-состава, нашей доли рынка в локации и десятков других факторов). До внедрения Big Data это оценивалось фактически вручную. После того как мы внедрили в работу модель на основе больших данных, мы снизили ошибку этой оценки более чем вдвое. Это привело к экономии в миллиарды рублей. Другой пример в телекоме — борьба со спамом. Мы совершенствуем модели, которые по поведению абонента на сети понимают, что это спамер. Это позволяет быстрее блокировать такие действия, что приводит как к прямой выручке от услуги блокировки спама, так и к повышению лояльности клиента. Суммарно это тоже дает эффекты в миллиарды рублей.
— Судя по отчетности МТС, одним из самых растущих направлений является в том числе рекламный бизнес. Как влияют рекомендательные алгоритмы на его развитие?
— Задача, которую решают рекомендательные сервисы,— помочь клиенту выбрать то, что ему подойдет больше всего, из большого каталога. В интернет-магазине МТС, например, на основе Big Data строятся рекомендации товаров. Эта система проецируется и на рекламу: у нас есть рекламодатели, различные витрины, где мы можем размещать рекламу в рамках своих сервисов и других витрин, где мы можем покупать размещение. Поскольку на основе аналитики больших данных мы понимаем, что именно нужно клиенту в конкретное время, мы можем эффективно определять, какую рекламу показать клиенту как на своих витринах, так и на внешних.
— Какие данные пользователей собираются и анализируются для рекомендательной платформы?
— Интересно, что на самом деле для построения рекомендаций не нужны какие-то личные данные, по которым можно идентифицировать человека. Важны коммерческие интересы человека в данный момент. Мы анализируем, как люди пользуются нашими сервисами, какие песни и фильмы смотрят, как пополняют счет, как часто, и на основе этого выстраиваем рекламные предложения. Как зовут человека, сколько ему лет, какого он пола — второстепенные вещи. Понятно, что в рекламе необходима возможность определить свою аудиторию в том числе по возрасту. Но часто бывает так, что вы, например, зарегистрировали сим-карту или какую-то услугу на свой паспорт, а пользуется ей другой человек. Поэтому выстраивание рекомендаций по поведению гораздо эффективнее.
Есть у людей вера в то, что рекомендации зависят от пола, возраста, дохода, но на самом деле определение этих «понятных человеку» параметров для алгоритмов машинного обучения — лишний шаг. Допустим мы видим, что женщина демонстрирует интерес к контенту, который более популярен у мужской аудитории, в таком случае и рекламные предложения ей должны быть соответствующими. И алгоритмы прекрасно улавливают это, не разбираясь, кто перед ними: ваши интересы сами говорят за себя.
— Как сейчас Big Data внедряется в медиасервисах МТС и какие вы видите результаты их работы?
— Безусловным драйвером тут является KION. Сегодня невозможно представить онлайн-кинотеатр без рекомендательных алгоритмов. Есть пользователи, которые приходят за конкретным фильмом, но в большинстве люди уже привыкли к рекомендациям. Они влияют на вовлечение клиента. Основная метрика здесь—– сколько времени клиент проводит в сервисе. Если мы увеличиваем на 1% среднее время пребывания в сервисе, то это влияет на среднее время жизни клиента в сервисе также примерно на 1%. Это приводит к тому, что суммарно мы получаем больше прибыли. Так, Netflix в 2016 году заявлял, что они с помощью рекомендательной системы зарабатывают $1 млрд, что составляет 4% от общей выручки. Мы считали аналогичный эффект нашей системы: он соразмерен уровню лидеров рынка. Алгоритмы также положительно сказываются на удовлетворенности клиентов и их готовности рекомендовать наш сервис.
Рекомендательные алгоритмы используются сегодня во всех медиасервисах МТС, более того, мы разработали универсальную платформу, которая позволяет разработчикам с помощью отдельных элементов, как из кубиков, собирать систему под каждый конкретный сервис. Централизация позволяет любое улучшение рекомендаций в конкретном сервисе масштабировать на всю платформу. Например, мы развивали платформу для рекомендаций контента, потом применили ее для рекомендаций в онлайн-магазине МТС и в сравнительном тесте превзошли по точности рекомендаций внешние решения.
— Над рекомендательной платформой работает одна команда или каждая бизнес-вертикаль отдельно? Сколько всего человек занимается Big Data в МТС?
— Есть централизованная команда, которая сосредоточена именно на платформе, и есть команды, сосредоточенные на внедрении под нужды отдельных бизнесов. Всего в нашей команде Big Data работает около 500 человек. При этом наем у нас идет всегда, однако на рынке сохраняется дефицит. Поэтому мы с начала прошлого года активно вкладываемся в подготовку специалистов. С одной стороны, у нас есть школа аналитиков данных, с другой — образовательные программы в вузах. Например, в ИТМО у нас есть курс по рекомендательным системам. Мы приняли осознанное решение, что лучше сейчас начать активно вкладываться в подготовку кадров, которые мы сможем условно нанять через три года, чем пытаться выжать последние соки из существующего рынка.
— Как аналитика данных помогает бизнесу в рамках экосистемы повышать эффективность?
— Большие данные уже проникли в значительную часть бизнесов МТС. Они позволяют анализировать финансовые показатели, показатели, связанные с клиентским качеством, планировать развитие экосистемы, прогнозировать наступление рисковых событий. Один из важных показателей — количество бизнес-вертикалей и экосистемных функций, использующих Big Data. Если говорить о финансовой эффективности, то она уже исчисляется в десятках миллиардов рублей, включая как внешнюю выручку, так и внутренние эффекты. При этом потенциальных применений еще много, и мы продолжаем их наращивать.
— Насколько вообще возрастет роль Big Data в ближайшие несколько лет?
— В данном случае ответ сильно определяется развитием искусственного интеллекта. Тут надо заметить, что те же рекомендательные системы, например, можно отнести и к Big Data, и к ИИ. Но с точки зрения бизнеса сегодня ИИ — это в большей степени нейросети, компьютерное зрение, голос и так далее, фактически это решение с помощью компьютера задач когнитивного характера. И в этом смысле нельзя не отметить развитие больших языковых моделей, таких как ChatGPT. Очевидно, в ближайшее время эти вещи будут автоматизировать написание кода, техподдержку. Мы скоро окажемся в реальности, когда будет не очень понятно, с нами общается робот или человек. И вместо нас, возможно, тоже с роботом будет общаться другой робот.
Роль Big Data здесь в том, что большая языковая модель сможет на основе анализа данных отвечать на любые запросы внутри компании — получать, например, данные о том, сколько человек за последний месяц пользовались тем или иным продуктом компании. Этот голосовой или письменный запрос нейросеть может переделать в запрос к базам данных компании, и на основе результата построить всю необходимую для принятия решений аналитику. Это такой следующий этап развития ИИ и Big Data, который наступит даже не через пять лет, а, возможно, уже в следующем году.