Бизнес ищет ресурсы в данных
Как компании справляются с лавиной информации
Принятие стратегических решений для коммерческих компаний все больше зависит от данных. Грамотная работа с информацией помогает оптимизировать процессы и повышать конкурентоспособность компании. Однако сегодня скорость и объем поступающих данных опережают возможности многих компаний в их анализе и обработке. Ситуация осложняется двумя факторами: существенным увеличением массива некачественных данных и низкой эффективностью их обработки. Решение этих проблем эксперты видят в концепциях структуризации данных, использовании искусственного интеллекта и облачных технологий.
Фото: Getty Images
Фото: Getty Images
В потоке
Объем данных, обрабатываемый российскими компаниями, продолжает стремительно расти. Это созвучно глобальным трендам: по прогнозам аналитиков, в 2025 году мировой объем данных достигнет 182 зеттабайт, причем за последние пять лет этот показатель уже вырос в три раза. В России темпы роста также значительны: в среднем объем данных увеличивается на 25–30% ежегодно. Согласно исследованию, проведенному K2 Cloud и Arenadata, в России наибольший прирост данных наблюдается в ритейле, FMCG (товары повседневного спроса), транспорте и логистике: 37% компаний сообщают об увеличении объемов данных на 30–100%, а 45% — о многократном росте. Традиционно большие объемы данных генерируют телекоммуникации, финансы и промышленность. В этих отраслях данные связаны с трансакциями, производственными процессами и взаимодействием с клиентами.
Однако многие компании сталкиваются с проблемой низкого качества данных. Часто такая проблема может возникать в результате ошибок сотрудников, слабой интеграции между системами, отсутствия четкой документации и унифицированных метрик. По оценкам экспертов, это иногда затрудняет реализацию комплексных проектов, например создание корпоративных хранилищ данных. «Ненадлежащая организация данных приводит к финансовым и временным потерям: исследования свидетельствуют, что сотрудники расходуют от 10% до 25% рабочего времени на поиск необходимой информации. Внедрение системного подхода к управлению данными позволило бы направить это время на решение стратегических задач»,— говорит гендиректор группы Arenadata Максим Пустовой.
Поэтому компании активно внедряют различные инструменты для повышения качества данных. По словам партнера «Яков и партнеры» Максима Болотских, среди таких инструментов — решения для автоматической очистки данных, алгоритмы машинного обучения, которые помогают выявлять дубликаты и ошибки, а также платформы Data Quality (DQ), способные автоматически проверять и исправлять несоответствия. «Большое значение имеют MDM-системы (Master Data Management), которые централизованно управляют мастер-данными, а также ETL-инструменты, обеспечивающие корректную обработку данных при их перемещении между системами,— уточняет он.— Вдобавок компании используют стратегии Data Governance — это целый комплекс правил, процессов и технологий, который помогает управлять качеством данных на всех этапах их жизненного цикла».
Интеллектуальная data-автоматизация
Для работы с данными все шире применяется искусственный интеллект (ИИ). «Многие компании используют ИИ в дата-каталогах для описания данных, особенно в контексте Big Data. Основная цель здесь заключается в автоматизации процесса каталогизации и аннотирования данных, чтобы сделать их более доступными и понятными для пользователей»,— говорит партнер департамента консалтинга, технологий и трансакций Б1 Юрий Денисов.
Использование ИИ также позволяет автоматизировать ключевые процессы и снизить нагрузку на специалистов компании. Например, самостоятельно выявлять взаимосвязи между бизнес-показателями и конкретными полями в базах данных, формируя гипотезы, которые человеку остается лишь проверить и подтвердить. Это значительно упрощает работу и ускоряет получение аналитики.
В ряде случаев большие языковые модели (LLM) и визуально-текстовые модели (VLM) способны эффективно обрабатывать большие объемы информации в различных форматах, справляясь с задачами лучше людей. «Например, их можно применять для автоматизации миграции данных: до 90% SQL-запросов (наборы команд для работы с реляционными базами данных.— “Ъ”) и 75% сложных процедур могут быть перенесены автоматически, что позволяет сэкономить десятки миллионов рублей в крупных проектах»,— конкретизирует Максим Пустовой.
Сегодня в РФ уже есть опыт использования ИИ для миграции кода с зарубежных СУБД. Например, специалисты группы Arenadata, выполнявшие проекты по переходу с таких систем, как Oracle Database, MS SQL и Teradata, на российские, утверждают, что с использованием ИИ в подобных кейсах значительно сокращаются временные и финансовые затраты, повышается точность преобразований и ускоряется переход на современные платформы.
Впрочем, ИИ для результативной работы с данными требует высокого качества самих данных, поскольку алгоритмы обучаются на них и любые неточности, несогласованности или пробелы приводят к ошибкам в прогнозировании, анализе и автоматизации. «В финансовом секторе некорректные данные могут исказить оценку кредитоспособности клиента или спровоцировать ошибочные трансакции»,— говорит директор по ИИ в ИТ Альфа-банка Святослав Соловьев.
При обучении ИИ разработчики требуют релевантности и полноты данных: они должны охватывать все сценарии, с которыми может столкнуться модель. Не менее важным фактором считается актуальность данных. Если они устарели, снижается точность прогнозов, особенно в условиях быстро меняющегося рынка. Следующий критерий — отсутствие «шума»: артефакты, дубликаты или ошибки в разметке мешают обучению. Наконец, данные должны быть совместимы с инструментами обработки (например, для обучения нейросетей).
Облачное шумоподавление
В настоящее время облачные технологии становятся инструментом, способным не только облегчить работу с данными, но и повысить их ценность. Одно из ключевых преимуществ облачных решений — централизация управления данными. В облаке это снижает риски, связанные с разрозненным хранением информации. «Современные облачные платформы предлагают встроенные инструменты для очистки, валидации и организации данных, что снижает уровень «шума» в системах машинного обучения и аналитики,— говорит директор по продуктам компании Selectel Константин Ансимов.— Кроме того, облачные провайдеры предлагают автоматизированные сервисы по работе с данными. По нашему опыту сейчас развертывание облачного сервера занимает всего 30 секунд, а выделенного сервера фиксированной конфигурации — около двух минут. Это позволяет бизнесу быстрее адаптироваться к меняющимся требованиям рынка и оперативно масштабировать ресурсы».
По оценкам эксперта, количество запросов на сервисы облачной IT-инфраструктуры продолжает расти. В основном в них заинтересованы компании, которые традиционно строили ее on-premise, например финансовые организации, медицинские компании, организации с госучастием и др. Константин Ансимов объясняет это необходимостью повышать уровень цифровизации бизнеса и ускоряющейся миграцией на отечественные аналоги зарубежных систем: «В качестве ключевых драйверов роста спроса на решения для управления данными мы видим: рост требований к объемам данных — нужны бесконечно масштабируемые системы хранения; претензии к скорости и мощности этих систем — нужно уметь очень быстро обрабатывать огромные объемы данных; повышение критериев безопасности — все должно быть безопасно сразу "из коробки"».
Как считает Максим Пустовой, использование облаков и ИИ дает синергетический эффект, важный для повышения эффективности работы с данными: «В первую очередь облачные платформы предоставляют мощные вычислительные ресурсы, которые позволяют обрабатывать большие объемы данных, необходимые для обучения ИИ-моделей. Также многие компании выбирают облачные решения, чтобы передать управление инфраструктурой профессионалам. Для бизнеса самостоятельное администрирование, настройка оборудования и повышение его производительности часто оказываются невыгодными». Аренда же облачных платформ позволяет заказчику значительно снизить капитальные затраты и заменить их операционными расходами». Важным аспектом является и возможность совместной работы облаков и ИИ. Облачные платформы позволяют командам разработчиков и исследователей работать над одним проектом из разных мест, что значительно ускоряет процесс разработки и внедрения ИИ.
Кроме того, облачные решения обеспечивают быструю масштабируемость. Если команда разработчиков решает, что модель должна обрабатывать больше данных или выполнять больше вычислений, облачные ресурсы можно быстро увеличить, что не всегда выполнимо с локальными серверами.
Говоря о перспективах развития рынка решений для работы с данными, эксперты прогнозируют рост отечественных продуктов. Среди основных драйверов рынка по-прежнему остаются цифровизация экономики и рост объема данных: чем больше информации генерирует бизнес для снижения расходов и оптимизации процессов, тем выше спрос на решения для работы с данными. «Кроме того, развитие ИИ и машинного обучения создает дополнительный стимул для нашего развития рынка,— отмечает Максим Пустовой,— как с точки зрения создания новых (синтетических) данных, так и в рамках повышения функциональности и конкурентоспособности продуктов по управлению данными. Мы видим явный тренд среди российских разработчиков: они активно работают над обеспечением технологической совместимости своих решений с другими классами продуктов, стремясь создавать экосистемные решения. Это прямой ответ на запросы заказчиков, которые хотят получать стратегически выверенные цифровые экосистемы, учитывающие как технологические, так и бизнес-аспекты».