У вас есть все данные
Почему Data Science-эксперты стали самыми востребованными специалистами сегодня
В быстро меняющемся мире точное прогнозирование становится залогом успеха для бизнеса и единственной возможностью избежать попадания компании в кризисную ситуацию. Для решения таких задач уже недостаточно только навыков аналитиков рынка или бизнес-консультантов: при написании стратегии развития бренда специалистам необходимо охватывать сразу несколько значимых показателей за разные промежутки времени. Поэтому спрос на Data Science-экспертов, способных проанализировать и учесть большое количество факторов, опираясь на массив цифровых данных, за один год вырос вдвое. “Ъ” выяснил, чем на практике занимаются специалисты Data Science, на какие зарплаты могут претендовать в условиях дефицита кадров, где в России можно овладеть новой профессией и стоит ли перепрофилироваться прямо сейчас.
Фото: Игорь Иванко, Коммерсантъ
Дефицит профи
«Без анализа больших данных вы остаетесь слепыми и глухими посреди автострады» — эти слова известного аналитика и консультанта в области управления Джеффри Мура остаются актуальными для бизнеса уже много лет. Сегодня же тех, кто способен работать с данными, компаниям особенно не хватает.
За восемь месяцев 2021 года на портале интернет-рекрутмента hh.ru в России было открыто свыше 2 тыс. вакансий для Data Scientist — это на 54% больше, чем в 2020 году. Резюме специалистов Data Science показывают еще большую динамику: за этот же период они выросли в 2,5 раза, до 5 тыс. Но все равно эта IT-специализация испытывает острый дефицит: в 2020 году на одну вакансию приходилось одно резюме, в 2021-м — менее трех при норме для рынка в пять-шесть предложений, поделились представители hh.ru.
«Резкий спрос на этих специалистов появился в 2015 году в связи с активным ростом продуктовых направлений: голосовых помощников, беспилотных автомобилей, биотехнологий и десятков других. Фактически сейчас ни одна технологическая компания не обходится без отдела анализа данных»,— рассказывает Talent Director, партнер IT-рекрутингового агентства и персонального карьерного маркетплейса gms & g-mate Алексей Исаев.
Что это за наука — Data Science? И почему эти «ученые» стали так всем нужны?
«Самая сексуальная» профессия
Data Science объединяет сразу несколько направлений в IT-области: сбор и анализ больших данных, статистику, программирование, машинное обучение и ИИ. Data Scientist как специалист в этой сфере объединяет в себе навыки математика, программиста и информатика.
Журналисты Harvard Business Review еще в октябре 2012 года назвали Data Scientist «самой сексуальной» профессией XXI века. Тогда о ней говорили как о только зарождающейся, предсказывая большое будущее из-за быстрого развития технологий и растущего объема цифровых данных. Сейчас информацию в сети каждый день оставляют люди и «умные» подключенные к ней устройства, ее собирают датчики и приборы, компонуют и сортируют облачные хранилища. За девять лет объем цифровых данных вырос колоссально, как и потребность ориентироваться в них. Главной ценностью Data Science-экспертов как раз является умение анализировать большие объемы неструктурированной информации (Big Data) и с помощью математических моделей и новых технологий находить в них закономерности, делать выводы и строить прогнозы.
«Типичный процесс выглядит примерно так: данные нужно выгрузить из систем-источников, очистить, визуализировать, трансформировать, обогатить, разработать, например, предиктивную модель машинного обучения и загрузить в конечную систему,— говорит руководитель направления предиктивной аналитики компании "Норбит" Дмитрий Тимаков.— Важной особенностью работы с данными на этапах анализа и разработки моделей машинного обучения является необходимость глубокого понимания протекающих бизнес-процессов».
Задачи перед экспертом могут стоять самые разные: от анализа фактических данных до определения морального состояния говорящего по видеоизображению, перечисляет президент «Ланит-Терком» Андрей Терехов: «Например, специалисты магазина, анализируя список покупок одной из клиенток за длительное время, догадались, что она беременна, и стали предлагать соответствующие товары. Отец девушки возмутился такими предположениями и даже начал судиться с магазином, но оказалось, что девушка на самом деле ждет ребенка. Разумеется, этот пример носит не вполне серьезный характер, хотя и абсолютно правдив». Также среди примеров эксперт приводит предсказание общего спроса на какие-либо продукты и выставление наиболее подходящей цены для этих товаров.
Самое сложное в работе Data Scientist — это оценка результатов. «Иногда очевидные с первого взгляда ответы, связанные с анализом данных, ничего не означают. Как и везде в науке, здесь нужно уметь отличать ремесленнический подход от исследовательского: ремесленник, попробовав пару методов и подобрав разумные коэффициенты, может получить приемлемый результат, но он никогда не сможет объяснить, почему именно этот метод верный, а не другой,— рассуждает Андрей Терехов.— А исследователь на каждом шагу будет понимать, что сработало, а что — нет, и почему, и как улучшить полученный результат с подробной аргументацией».
В целом деятельность специалистов направлена на решение большой бизнес-задачи: увеличения выручки компании или конверсии, автоматизации рабочих процессов, которые ранее выполняли люди, утверждает Дмитрий Тимаков. Среди наиболее заинтересованных отраслей эксперты назвали сам IT-сектор, ритейл, финтех, производство и нефтегазовую промышленность.
Работодатели со своей стороны готовы платить за услуги востребованных специалистов. По данным hh.ru, зарплаты экспертов в Data Science начинаются в среднем от 120 тыс. руб. и достигают 300–400 тыс. руб. в месяц при возможности работать удаленно. Особый интерес к специалистам рекрутинговые агентства видят со стороны международных стартапов, которые готовы платить выше рынка: 400–500 тыс. руб., рассказывает Алексей Исаев.
Применение на практике
Пандемия коронавируса придала резкий импульс развитию Data Science как профессии, в которой не нужен личный контакт с источниками информации и создающей инструменты для дистанционного решения важных задач. Так, несмотря на всемирную изоляцию, врачам было необходимо обмениваться ценной информацией о новой вирусной инфекции, собирать данные со всех возможных источников, переводить и структурировать. Профессионалы в Data Science в области медицины оказались остро востребованы.
Также сейчас во всех бизнес-процессах для принятия стратегических решений специалистам нужно видеть полную картину, состоящую из разной неструктурированной информации. Например, для введения нового тарифа или спецпредложения телеком-оператору необходимо проанализировать действия своих абонентов и выявить их ключевые предпочтения: разговоры по сотовой связи, общение в мессенджерах или просмотр видео в интернете — в зависимости от этого компания предложит наиболее выгодные условия для клиентов.
Собрать и обработать такую информацию Data Scientists помогают алгоритмы ИИ. «В первую очередь ИИ стал востребован в тех отраслях, где есть необходимость быстрого и безошибочного анализа большого объема данных, оптимизации процессов,— соглашается начальник управления развития перспективных технологий AI "Сбера" Андрей Черток.— Пионером стали банки, дальше e-commerce. Постепенно весь бизнес, включая малый, осознает, что работа с данными дает большой прирост эффективности. Например, маленькая кофейня на основе анализа предпочтений клиента может настроить рекомендательную систему, улучшить качество коммуникации и повысить лояльность».
Продукты, которые делают специалисты в области Data Science, окружают нас каждый день, размышляет директор по технологиям искусственного интеллекта «Тинькофф» Павел Калайдин. Например, цифровой ассистент врача, если снимок смотрит не только доктор, но и нейросеть, которая обучилась на похожих случаях. «Это как подключить дополнительный мозг, который тоже предлагает свою идею по решению проблемы,— проводит аналогию господин Калайдин.— В свое время промышленная революция привела к механизации ручного труда, сейчас происходит то же самое, но в других областях. Количество используемой информации сильно возросло, при этом неструктурированная информация содержит важные знания, которые можно использовать с пользой для бизнеса».
Чтобы стать хорошим Data Science-специалистом, который будет востребован в крупных передовых компаниях, в идеале надо иметь базовое техническое образование, считает Павел Калайдин. В эту область приходят и после девяти месяцев онлайн-курсов, но, по его словам, обычно этого недостаточно. Большинству потом все равно приходится учиться: они получают высшее образование в этой области и при этом параллельно работают. Это требует серьезной дисциплины и упорного, многолетнего труда.
Alma mater для Data Science
Пожалуй, в наши дни нет профессии или навыка, которые нельзя освоить, обладая достаточными ресурсами в виде времени и денег. Data Science не исключение. «Если в Data Science идут для перепрофилирования, то это люди с хорошим математическим бэкграундом, либо просто с аналитическим складом ума, либо обычные программисты,— рассуждает Delivery Director в First Line Software Константин Фартусов.— Ведь часть практик Data Science связана с языками программирования, например Python и R, то есть языками с низким порогом вхождения. Поэтому перспективы профессии внушают оптимизм: спрос есть, а обучиться основам не так сложно, как может показаться».
Новой профессии уже учат в ведущих российских вузах, таких как МГТУ имени Баумана или Высшая школа экономики. Учебный центр при Бауманке предлагает пройти курс от шести месяцев, его стоимость начинается от 121 тыс. руб. Программа подразумевает в том числе начало освоения специальности с нуля. В нее входят обучение применению на практике знаний по математической статистике, необходимых для статистического анализа, использованию современных баз данных, применению технологии Big Data и машинного обучения (о том, какие навыки и инструменты востребованы в российских компаниях, см. колонку главы направления больших данных VK Германа Царева).
Образованием также занимаются российские IT-компании. Например, «Тинькофф» в своем проекте «Тинькофф Образование» совместно с МФТИ запустил несколько курсов по машинному обучению как для старшеклассников и студентов младших курсов, так и для студентов магистратуры. Второе направление предполагает работу над проектами «Тинькофф» в МФТИ, когда студенты вместе с бизнес-менторами банка и научными менторами со стороны вуза решают прикладные задачи.
«Это способ проверить гипотезы и сделать экспериментальный проект вместе со студентами. На стыке бизнеса и науки максимизируются результаты и часто появляются нестандартные решения»,— поясняет Павел Калайдин.
Без спроса не останемся
Опрошенные “Ъ” эксперты в IT-сфере и рекрутинговых агентствах единогласны: в эту профессию стоит уходить как молодым специалистам, так и профессионалам. Спрос на Data Science в перспективе пяти-десяти лет будет только расти, а кадровый голод рынка быстро утолить не удастся. Согласно прогнозу агентства Research and Markets, рынок аналитики больших данных вырастет до $115,13 млрд к 2028 году при средней динамике 11,9%.
Основная задача при смене профессии — дружить с цифрами, поделился ментор сервиса поиска наставников в IT Solvery Евгений Кочанов. Важно, чтобы у начинающего эксперта был очень гибкий, живой мозг, открытый к математике, либо хороший опыт в работе с цифрами и таблицами, статистикой и программированием. Без этого овладеть специальностью будет сложно, так как осваивать нужно в процессе множество разных сфер.
Топовый Data Scientist сродни ученому, который изучает работу человеческого мозга, говорит Константин Фартусов. Как известно, ответа на вопрос, на сколько процентов вообще изучен мозг, не существует. А это значит, что в Data Science границ для дальнейшего углубления, похоже, нет.
Дата-сайентист — герой нашего времени
Еще десять лет назад в Harvard Business Review назвали профессию в области аналитики больших данных одной из самых привлекательных в мире. С тех пор спрос на таких специалистов продолжает расти. О том, что нужно знать и уметь дата-сайентисту и как попасть в эту сферу, рассказывает директор направления больших данных VK Герман Царев.
Герман Царев, директор направления больших данных VK
Многие крупные компании уже умеют работать с данными. Они поняли, что специалисты в этой области могут напрямую или косвенно генерировать дополнительную выручку, создавать новые продукты и направления за счет технологий. Поэтому в организациях появляются подобные вакансии — а там, где такие профессионалы уже были, их становится больше.
Если описать, кто такой дата-сайентист и какими навыками должен обладать, получится программист с отличным математическим фундаментом. Он умеет работать с различными базами данных и стеком больших данных, может строить и улучшать модели машинного обучения. Важно, чтобы специалист был погружен в специфику работы компании: это помогает формулировать гипотезы и проверять определенные наборы данных для решения задач бизнеса быстрее.
Конкретный набор навыков и компетенций, которые потребуются дата-сайентисту, может разниться от компании к компании. К тому же со временем выделяются узконаправленные специальности, например инженер машинного обучения или специалист по качеству данных. Поэтому сейчас диапазон задач дата-сайентиста простирается от классической аналитики до построения моделей машинного обучения. Часто отличие между позициями заключается именно в пропорции задач внутри этого диапазона — например, одни вакансии предполагают 80% аналитических задач и 20% машинного обучения, а другие наоборот.
В список технологий и инструментов дата-сайентистов в коммерческих компаниях, как правило, входят Python, SQL, Hadoop, Spark, Presto, Jupyter Notebook, библиотеки работы с данными и библиотеки машинного обучения.
Из персональных качеств важно желание разбираться в деталях сложных систем, не бояться неопределенности и любить эксперименты. Часто приходится работать с чем-то совершенно новым, непредсказуемым, делать то, чего никто до этого не делал. Очень помогают сильные коммуникативные навыки: для решения нетривиальных задач часто нужно общаться с коллегами.
Хорошей базой для дата-сайентиста станет образование в сфере прикладной математики или техническое, например факультет компьютерных наук НИУ ВШЭ, ВМК или мехмат МГУ, математическо-технические факультеты МФТИ, МИФИ, Бауманки и других ведущих вузов. Но в этой профессии главное не диплом, а способности кандидата и его опыт, которые позволяют хорошо пройти технические собеседования. Есть много примеров, когда это успешно удавалось студентам второго-третьего курсов.
Поскольку для дата-сайентиста важна техническо-математическая база, перейти в эту профессию легче тому, у кого эта база уже есть. Часто дата-сайентистами становятся продуктовые аналитики или аналитики данных, разработчики.
Несмотря на сильную тенденцию к автоматизации как при работе с данными, так и в машинном обучение, в перспективе пяти лет спрос на дата-сайентистов и их количество на рынке, скорее всего, продолжат расти. Ведь именно такие профессионалы генерируют и проверяют множество гипотез, от которых зависят многие процессы, качество сервисов, счастье клиентов и, как следствие, доходы компаний.