Цена вопроса
Руководитель программ развития ИИ в «Газпром нефти» Алексей Шпильман о выгодах от качественных данных
Вопрос данных всегда был центральным в области машинного обучения. Зачастую именно сбор систематизированных наборов данных (датасетов) приводил к прорывам. Еще в 2010 году исследовательница из Стэнфордского университета Фэй-Фэй Ли высказала идею, что в области компьютерного зрения основная проблема не в алгоритмах, а в том, что нет достаточно большого и хорошего датасета для обучения.
Алексей Шпильман
Фото: Пресс-служба «Газпром нефть»
Инициатива Фэй-Фэй Ли по сбору датасета ImageNet из картинок из интернета, распределенных по тысяче классов, стала одной из предпосылок начала современной эпохи глубокого обучения. Одновременно началась эпоха охоты за данными. Долгое время первым вопросом, который задавали заказчикам специалисты, было «А какие у вас есть данные?» Если данных не было или если они оказывались недостаточного качества, то за задачу зачастую могли просто не взяться.
Потом пришло время предобучения и самообучения глубоких нейронных сетей. Их обучали на некой тренировочной задаче, а в процессе загружали титаническое количество информации — например, подавали на вход всю «Википедию» и просили угадать следующее слово в тексте. Таким сетям уже нужно было меньше данных, чтобы дообучиться до способности выполнять конкретные задачи. Это можно сравнить с получением образования: человеку с дипломом инженера нужно меньше усилий, чем школьнику, чтобы влиться в технологический процесс.
В 2022 году произошел обратный сдвиг парадигмы. Вышел ChatGPT, успех которого помимо размера сети обуславливался комбинацией трех способов обучения: предобучения, о котором шла речь выше, дообучения на качественных примерах и обучения по оценкам качества генерируемых ответов. Весь 2023 год был посвящен разнообразным экспериментам по обучению таких сетей. Почти сразу все игроки на рынке пришли к выводу, что чуть ли не самое ценное в процессе — качество примеров из второго этапа.
Для генерации очень качественных данных компании стали обучать целые когорты ИИ-тренеров — именно обучать, потому что готовых специалистов на рынке не было. Одной из альтернатив создания датасетов с нуля стало преобразование уже имеющихся качественных источников, например учебников с задачами и ответами или записей общения сотрудников службы поддержки с клиентами.
Сейчас наши создатели систем, подобных ChatGPT, научились закрывать свои потребности в ИИ-тренерах. Но по мере того, как системы начинают проникать в финансовую сферу, в промышленность, появляется новая потребность: в ИИ-тренерах, понимающих отраслевую специфику. Сейчас она как-то закрывается сотрудниками компаний, но если те хотят интенсифицировать внедрение таких моделей, то им нужно будет развивать институты таких тренеров. Потребность понимает Альянс в сфере ИИ, где IT-компании представлены вместе с отраслевыми. В случае со сложными инженерными задачами нужно будет обучать модели на технической документации. Мы столкнемся с тем, что часть документации запрещена к обработке, а часть имеет ограниченный доступ.
Ситуация в мире не сильно отличается: IT-компании научились делать модели общего характера, представителям же узких отраслей развертывание ИИ дается нелегко. Если мы найдем способ ускорить разработку и внедрение отраслевых генеративных моделей, то мы не только повысим эффективность и производительность труда, но и сможем экспортировать такие решения.
Нейросети тянут мощности
Искусственный интеллект требует все новых вычислительных ресурсов