Искусственный интеллект учит
Малые нейросети способны обучать большие ИИ-модели лучше человека
Зачем одному искусственному интеллекту обучать другой, при чем тут компьютерное зрение и беспилотные автомобили и где можно будет применять новую методику, «Ъ-Наука» спросил у Ильи Макарова, руководителя группы «ИИ в промышленности» Института AIRI.
— Расскажите, пожалуйста, как возникла идея использовать малые генеративные модели для обучения больших ИИ-моделей?
— Начать надо с того, что использование одной нейросети для обучения другой — это уже применяемый подход. Сперва ученые обучали большую модель, которая становилась «учителем» с большим числом параметров. Затем, чтобы запустить модель на устройстве с ограниченными ресурсами, например на телефоне, обучали маленькую модель-студента. Всегда считалось, что учитель умнее, чем студент, поэтому подход заключался в том, чтобы большая модель передавала свои знания маленькой, сохраняя ее функциональность.
Мы же перевернули эту конструкцию с ног на голову, решив, что учитель у нас будет маленьким, но более умным за счет обучения на высококачественных данных, собранных в процессе поездок. А студент, чтобы работать с менее качественными данными, должен иметь гораздо больше параметров. Таким образом, маленькая модель-учитель, обученная на хороших данных, передавала свои знания большой модели-студенту. Этот подход мы первыми применили в компьютерном зрении.
Что касается предпосылок, сама идея родилась из необходимости решать проблемы, с которыми мы столкнулись во время исследований. Наша задача заключалась в 3D-детекции, то есть в определении параллелепипеда, внутри которого находится объект. Основное применение — это как раз таки беспилотные автомобили или дополненная реальность, где очень важно четко определять границы объекта.
Как это устроено. Если 2D-детекция — это просто прямоугольник на картинке, то 3D-детекция — это 3D-координаты параллелепипеда, который максимально близок к предмету и целиком содержит его внутри себя. Это очень сложная задача, особенно при наличии двухмерных данных. Потому что у одного и того же объекта, но разных размеров или расположенных на разном расстоянии, будут совершенно иная глубина и 3D-позиция. Добавим к этому реальность: предмет может закрываться другими предметами, либо может двигаться, либо может быть перекрыт каким-нибудь объектом сложной структуры вроде дерева или куста.
Научная новизна нашего подхода заключалась в том, что мы акцентировали внимание не только на размере моделей, но и на качестве данных. Малые модели обучались на более полных данных и передавали свои знания большим моделям. В итоге большие могли эффективно работать даже с менее качественными данными, а их производительность значительно улучшилась.
— Вы начинали работать над проектом параллельно с исследованиями из OpenAI. Какие еще интересные параллели и отличия вы наблюдали в ваших исследованиях?
— Интересно, что мы сначала отправили нашу статью на рецензию на конференцию, а следом вышла публикация OpenAI, и мы обнаружили, что подходы довольно схожи. Ключевая параллель — мы увидели возможность обучать большие модели малыми на дискриминативных моделях, а OpenAI — на генеративных.
Хотя здесь же будет полезно уточнить, что все регулярно упоминают генеративные модели, когда на самом деле речь идет о дискриминативных. Генеративные генерируют данные с нуля и из ничего, а дискриминативные работают с уже существующими и дают на них ответы. Например, ChatGPT тоже является дискриминативной моделью, но сегодня все следуют более популярному дискурсу и называют ее генеративной.
Что касается отличий в подходах, то это практически все остальное. OpenAI работает с языковыми моделями, которые обучаются генерировать тексты, а у нас задачи связаны с компьютерным зрением. Их идея возникла из проблемы, что рано или поздно данные для обучения будут размечаться не человеком, а компьютером. У нас же это возникло сторонним путем, но в итоге мы пришли к схожим выводам.
— Какие именно преимущества вы наблюдали при использовании малых нейросетей в процессе обучения больших моделей?
— Основное преимущество — большая модель обучается лучше и точнее. Метрики качества улучшаются. Плюс важно понимать, что малые модели обучаются на частично размеченных данных, что само по себе уже экономит ресурсы, поскольку человек не участвует в разметке всего массива.
Мы использовали стандартную метрику Average Precision (AP), которая измеряет качество детекции 3D-объектов. Этот показатель улучшился на 1%, что является значительным улучшением. Особенно это заметно в ситуациях, когда объекты видны лишь частично — модель стала значительно лучше детектировать подобные предметы.
— Какие еще области, по вашему мнению, могут извлечь выгоду из этого метода?
— Этот метод может быть применим в любом направлении, где есть возможность улучшить данные. Например, в текстах, видео, изображениях, звуках и других областях. Главное — понять, как их улучшить для каждой конкретной задачи. В робототехнике, например, можно использовать их для повышения точности моделей. В медицине улучшенные данные могут помочь в более точной диагностике на основе медицинских изображений. Также метод может быть применен в анализе звуковых данных, хотя это и требует дополнительной проработки.
— Как шла работа над исследованием? Как звучала гипотеза?
— Гипотеза состояла в том, что улучшенные данные могут повысить качество автоматической разметки. В нашем случае данные — это облака точек, которые можно представить как список, где у каждой точки имеются три координаты, и иногда добавляется четвертое число, которое показывает силу отражения света. Все данные собираются автомобилем с лидаром и другими датчиками, который несколько часов днем и ночью в разные погодные условия ездит по городу, записывая информацию. В результате получается последовательность файлов, каждый из которых содержит список данных.
Мы разбили всю работу на несколько этапов: первые — разметка данных и обучение на них моделей, далее — улучшение данных и передача знаний от малых моделей к большим. Каждый этап занимал примерно месяц-два. Сами эксперименты мы проводили с первого дня и до момента подачи статьи. На каждый уходило по несколько дней, поскольку обучение моделей — процесс небыстрый.
Экспериментальная часть включала формулирование гипотез, разработку кода, запуск процесса, получение и анализ метрик, а затем повторение цикла. Мы использовали разные методы трекинга и объединения точек для отслеживания и улучшения объектов. Сложность заключалась в длительном времени ожидания результатов каждого эксперимента. Бывали и случаи, когда ошибки в коде не позволяли проверить гипотезу.
— Расскажите подробнее о трех сценариях сбора данных облаков точек, которые вы использовали в своем исследовании.
— Мы использовали три масштабных готовых датасета — это сотни тысяч кадров. В каждом наборе автомобиль ездил по разным городам в различное время суток и погодные условия, собирая данные с лидара. Все это необходимо, чтобы охватить множество сценариев и условий, так как, например, дождь очень сильно влияет на детекцию объектов, создавая дополнительные шумы.
Объем данных оказался критически важным для достижения высокой точности. Мы не проводили экспериментов по уменьшению объема, использовали весь доступный набор.
— Какие дальнейшие шаги планирует ваша команда в развитии этого направления?
— У нас есть планы применить этот метод к смежным задачам для автомобилей и облаков точек, например к задаче сегментации. Мы также планируем исследовать возможности применения метода в таких областях, как робототехника и медицина.
Еще думаем о проведении дополнительных экспериментов и расширении нашего подхода. Одним из направлений может стать мультитаск-обучение, когда одна модель выполняет несколько задач одновременно. Потенциально это позволит создавать более универсальные и мощные модели.
В ближайшем будущем мы хотим протестировать метод на новых наборах данных и задачах, чтобы убедиться в его эффективности и универсальности. Как только появятся дополнительные ресурсы, сможем продолжить работу и расширить исследования, чтобы сделать метод более масштабируемым и применимым в различных сферах.
Подготовлено при поддержке Института искусственного интеллекта AIRI.