«Дефицит высококлассных айтишников огромный»
Партнер Лиги Цифровой Экономики — о том, зачем сегодня бизнесу нужны Data Scientists и какие задачи перед ними стоят
Из-за бума цифровой трансформации бизнес ринулся в гонку за технологиями, пытаясь увеличить свои конкурентные преимущества. Хранить данные и делать их первичную обработку научились все — настало время для глубинного анализа, чтобы монетизировать эту разрозненную информацию. В этом компаниям и организациям помогает Data Science (DS) — наука об анализе данных и поиске лучших решений на их основе. О востребованности профильных специалистов, особенностях их работы и о том, какие преимущества получает бизнес от правильного использования DS, рассказал партнер Лиги Цифровой Экономики, директор практики Big Data Юрий Колбасин.
— В чем отличия DS от BI-аналитики? Многие считают, что это одно и то же.
— Оба этих термина основываются на понятии Data. Но отличия все-таки есть. В традиционном BI аналитика строится на исторических данных, их интерпретации, систематизации и построении отчетности на базе структурированных данных. Это так называемая описательная аналитика. Что касается DS, то там анализ исторических данных используется для предиктивной, или предписательной, аналитики, то есть для построения прогнозов.
В рамках DS обрабатываются огромные объемы неструктурированных или слабо структурированных данных из различных систем-источников. Основное преимущество — использование научных подходов к анализу для извлечения ценности, монетизации и глубинного понимания доступных данных, обработка которых слишком сложна или дорога для традиционного BI.
— Почему DS-эксперты сейчас так востребованы?
— С развитием цифровизации некоторые привычные направления потеряли свое былое значение. Компании стараются заработать «новые деньги», то есть получить дополнительную ценность. В качестве примера можно привести монетизацию данных телеком-операторами в рамках предоставления аналитических сервисов для банков и страховых компаний. Это приводит к росту выручки, но уже не от услуг традиционной сотовой связи.
Все уже научились сохранять данные и проводить первичный анализ. Теперь же стоит задача извлечь из этого дополнительную пользу: лучше узнать своего клиента и предложить новые сервисы, проводить интеграцию между индустриями и находить синергию от более полного понимания потребителя с точки зрения его поведения. В общем, речь о том, чтобы в конечном счете выгоднее монетизировать данные.
В традиционных BI-системах невозможно проводить глубинный анализ на больших массивах данных. Необходимо применение математических алгоритмов для прогностических, рекомендательных систем, которые в режиме онлайн будут предугадывать поведение потребителя и реагировать на это. Для этого и нужны инструменты DS, которые из этих огромных пластов информации с помощью математических моделей выявляют закономерности, находят инсайты, формируют поведенческий профиль клиента и в итоге помогают компании найти «новые деньги». Масштабная цифровая трансформация во всех индустриях делает роль DS чрезвычайно важной.
— Насколько велика нехватка грамотных специалистов на рынке?
— Дефицит высококлассных айтишников огромный. В погоне за ними идет нешуточная борьба. Программы вузов не отвечают запросам участников IT-рынка. Приходится тратить очень много ресурсов на подготовку качественного специалиста, обучать инструментарию, подходам, пониманию потребностей проекта в дополнение к академическим знаниям, полученным в университете. В рамках программ Академии Лиги Цифровой Экономики мы тратим до полугода на профессиональное профилирование нового сотрудника. Общее время подготовки специалиста с учетом первоначальной работы на проектах занимает до полутора лет.
— В основе каких общеизвестных сервисов и решений сегодня лежит именно DS? Приведите примеры.
— Big Data в целом и конкретно DS являются основой множества сервисов, которыми мы пользуемся каждый день. Новостные агрегаторы адаптируются под наши интересы и формируют ленту новостей исходя из запросов. Все рекомендательные системы построены на анализе действий, выявлении закономерностей и формировании сегментов пользователей со схожими признаками. Создается модель поведения и как результат — подборка контента, которая будет интересна именно вам. Так работают рекомендации контента в YouTube, Netflix, Okko, App Store.
Ярким примером использования DS и предписательной аналитики являются сервисы карт и навигации с учетом дорожного трафика. Анализируются данные о перемещении огромного количества людей и автомобилей, строятся прогнозы по загруженности дорог, учитывается статистика по обычной загрузке отдельных участков, строятся маршруты движения с учетом множества факторов. В этом случае аналитика используется не для построения отчета, а для управления потоками людей. Ни один таксист сегодня не выполняет заказ без проложенного маршрута, да и в целом горожане меняют свой путь в зависимости от рекомендаций, полученных от навигатора.
— Какие задачи стоят перед специалистом в области DS?
— Традиционной для DS является задача построения предиктивных моделей, определяющих вероятность различных событий, например поломки агрегатов на производстве или оттока клиента. Также речь идет о создании моделей рекомендательных систем, которые приводят к увеличению потребления сервисов (up-sell и cross-sell), поведенческой сегментации клиентской базы для углубленного понимания потребителя, построению моделей различных скорингов. DS используется для определения круга общения клиента, формирования знания о нем, создания пакетного предложения и уменьшения вероятности оттока.
— В чем главные особенности работы с данными?
— Основная специфика заключается в самом объеме данных (он огромный по разным направлениям), большой скорости прироста данных, наличии разнородной информации, слабо структурированной. Иной раз нет явных признаков, по которым необходимо делать анализ. Нужно вариативно проводить анализ весовых коэффициентов того или иного показателя, определять комбинацию показателей, которая оказывает наибольшее влияние и дает наилучшее качество модели.
Нужна работа с качеством модели — постоянно ее улучшать. Объем и состав данных пересматриваются, добавляются новые показатели. Качество входных данных бывает разное — необходимы мероприятия по их очистке и исправлению ошибок, полученных с систем-источников. Реакция на поведение клиента должна быть в режиме real-time или near real-time. Также нужен минимальный time-to-market по запуску новых сервисов.
— Насколько сегодня затраты на DS оправданны для бизнеса?
— Благодаря DS бизнес получает дополнительную прибыль, извлеченную из данных. Доля потребления традиционных услуг падает. Все борются за внимание клиента и пытаются стать единым окном и проводником в цифровые сервисы. Кто будет больше знать о клиенте, понимать, что именно сейчас ему нужно, кто завладеет его вниманием и предоставит быстрый и удобный сервис, решающий потребность в моменте, тот будет доминировать на рынке услуг.
— Есть мнение, что скоро для работы в IT-компании DS станет таким же базовым навыком, как для офисных сотрудников умение работать с Microsoft Office. Согласны?
— Не совсем. Да, сегодня DS уже применяется везде, но все-таки для работы с этими инструментами необходимо обладать специфическими навыками. Основа DS — высшая математика. Нужны знания в статистике, теории вероятности, математическом анализе и др. Без получения профильного образования вход в профессию будет очень трудным или невозможным.
— Тогда где и как можно этому обучиться? Где компании ищут себе таких сотрудников?
— Очень актуальный вопрос. Хорошие знания по математике даются в ряде профильных вузов, там же закладываются основы в языках программирования, необходимых для работы (например, Python). Также существует довольно много курсов, которые дают основы по DS. Однако уровень знаний, которые можно получить в вузах и на курсах, сильно разнится.
Лига Цифровой Экономики растит сотрудников DS у себя внутри компании. Мы берем в штат выпускников с математическим образованием, обучаем их работе с данными, языку Python, на примерах реальных кейсов учим строить модели и понимать специфику. Без реальной практики академических знаний недостаточно, чтобы уверенно решать поставленные задачи. Большой опыт реализованных проектов позволяет нам на различных примерах из множества индустрий давать обширные знания и прорабатывать навыки у Data Scientist. Интересные и разнообразные проекты, которые содержат в себе какой-либо вызов, привлекают также и опытных специалистов с рынка труда.
— Как Data Scientist может увеличить свою стоимость на рынке труда?
— На повышение стоимости на рынке напрямую влияют отраслевые знания, полученные на реальных проектах. Специфика данных, их объем, подходы к решению задач различны. Например, вариативность данных в банках не такая, как у телеком-компаний, которые обладают очень широкими знаниями о поведении клиента и могут строить разнообразные модели на большом количестве показателей.
Стоимость растет соизмеримо опыту решения сложных задач, пониманию отраслевой потребности, навыкам владения инструментами, применения различных моделей. Важно понимание работы с качеством данных, понимание моделей, умение предлагать решение, наиболее подходящее для текущей задачи. Нужно обладать навыками по поиску инсайтов в данных, генерации новых идей, создающих для компании реальное конкурентное преимущество.