Как обучают нейросети

Информационные возможности интернета уже исчерпаны

С каждым годом нейросети становятся все более популярным инструментом для решения разнообразных задач. Многие специалисты используют их в своей работе — например, для редактирования текстов, изображений, генерации идей и анализа информации. Однако для того, чтобы нейросети эффективно выполняли свои функции и совершенствовались, их необходимо постоянно обучать на новых массивах данных.

Фото: Getty Images

Научный руководитель центра непрерывного образования ФКН НИУ ВШЭ Евгений Соколов рассказал «Ъ-Науке», почему нейросети в них так нуждаются.

Как работают нейросети

Ни одна нейронная сеть не обладает интеллектом и не может рассуждать в привычном для нас понимании. Это набор математических формул и алгоритмов, которые формируются на основе огромного количества примеров. По сути, они выявляют взаимосвязи между «прошлыми» данными и новыми запросами пользователя. Например, если мы попросим нейросеть сочинить стихотворение о любви, она проанализирует сотни тысяч похожих стихотворений в интернете — их логику и стилистические особенности, сопоставит выявленные закономерности с запросом и создаст оригинальный текст.

Создание генеративных нейронных сетей — это непрерывный процесс. Сначала нейросеть обучается на огромных массивах данных. Например, это могут быть все материалы, которые есть в интернете. Затем непрерывно формируются новые обучающие примеры — запросы, правильные и неправильные варианты ответов на них.

Нейросеть будет обрабатывать запросы более точно, если ее постоянно дообучать. Этот процесс включает четыре основных этапа. На первом этапе разрабатываются промпты — фразы и предложения, на основе которых нейросеть будет генерировать ответы. Второй этап — сбор базы данных, по сути, своеобразной «библиотеки», из которой она будет черпать информацию, необходимую для выполнения запроса. Третий этап — сортировка данных. Это помогает нейросети легче ориентироваться в своих знаниях и быстрее обращаться к «библиотеке». Последний этап — процесс проверки информации. Он необходим для контроля точности и надежности данных, на которых обучается модель.

Людей, которые создают качественные примеры для обучения нейросетей, сегодня называют ИИ-тренерами. От них требуется серьезная квалификация. Для того чтобы подготовить ответ на просьбу решить задачу по физике, необходимо как разбираться в предмете, так и уметь доступно рассказывать про него.

Особенности обучения нейросети

Ключевая особенность обучения — необходимость использования гигантских массивов информации. Материала требуется так много, что, например, в 2021 году OpenAI исчерпала все доступные в интернете ресурсы для обучения своего чат-бота. То, что делают разработчики при обучении нейросетей, можно сравнить с работой учителей, которые «натаскивают» школьников на решение конкретных задач: чем больше примеров изучил ребенок, тем успешнее он решает новые. Аналогично нейросеть будет давать более точные и осмысленные ответы, если проанализирует множество материалов.

Кроме того, чем больше разнообразных данных используется для обучения — текстовых, визуальных, видео,— тем более мультимодальной становится нейросеть. То есть она учится не только понимать текст, но и обрабатывать запрос — например, по картинке, изображению, видео или аудио.

Важно помнить, что пользователи предпочитают нейросети, которые учитывают локальный контекст при обработке запросов, особенности языка, культуры и т. д. Для этого необходимо обучать нейросеть на материалах, отражающих этот контекст. Это особенно актуально для разработчиков отечественных нейросетей. Русскоязычным пользователям важно, чтобы нейросети правильно работали с родным языком, поэтому при обучении необходимо использовать как можно больше качественных материалов на нашем языке.

В противном случае наши генеративные инструменты не будут иметь конкурентного преимущества перед зарубежными аналогами, а значит, и не смогут занять достаточную часть рынка в стране. В условиях технологической гонки это приведет к потере пользователей, что может особенно болезненно отразиться на развитии отечественных технологий ИИ. Препятствие для развития отечественных нейросетей создает и то, что более половины всех ресурсов в интернете — англоязычные, в то время как доля русского языка в общем объеме интернет-ресурсов составляет всего 4%. Разница между англоязычным и русскоязычным контентом увеличится еще больше, если учесть контент, сгенерированный самими нейросетями.

Решением этой проблемы может стать обеспечение свободного доступа отечественных разработчиков к русскоязычным материалам для обучения нейросетей и создание дополнительных стимулов для повышения «конкурентоспособности» языка. Например, перевод иностранных материалов на русский язык, их оцифровка и использование для обучения. Создание русскоязычных наборов данных для обучения нейросетей — в частности, это могут быть данные по предметным областям, например по юриспруденции, медицине, экономике, искусству — это трудоемкий процесс и требующий вовлечения квалифицированных специалистов.

По моему мнению, именно формирование подобных баз и обеспечение свободного доступа к ним позволит разработчикам создавать технологии, которые глубоко учитывают наш локальный контекст. Такой подход позволит максимально эффективно обучать российские нейросети, что в конечном итоге повысит их конкурентоспособность по сравнению с западными аналогами.

Подготовлено при поддержке Альянса в сфере искусственного интеллекта

Вся лента