Представленный недавно исследовательской организацией OpenAI генератор текста GPT-3 стал одной из самых обсуждаемых тем в сфере искусственного интеллекта (ИИ) за последнее время. Этот алгоритм может «умно» отвечать на многие вопросы, сочинять стихи, новостные статьи и финансовые отчеты и даже писать программный код. О GPT-3 говорят как о прорыве. И его же опасаются и критикуют — за то, что он генерирует хорошо звучащий текст без какого-либо анализа.
Фото: Getty Images
Система автозаполнения пишет стихи и составляет финансовые отчеты
Третье поколение разработанного исследовательской организацией OpenAI и основанного на глубоком обучении генератора текста — GPT-3 (Generative Pre-trained Transformer) — оказалось в центре внимания экспертов, пишущих о технологиях и ИИ. GPT-3 был представлен на бета-тестирование экспертов в июле. С тех пор они активно обсуждают, как алгоритм сочиняет стихи, составляет тексты, почти неотличимые от написанных человеком, и даже пишет музыку.
С другой стороны, встает вопрос о том, насколько это опасное изобретение и насколько важен тот факт, что GPT-3, генерируя осмысленные и очень похожие на написанные человеком тексты, на самом деле ничего не анализирует.
Некоторые говорят о том, что GPT-3 переоценена — даже генеральный директор OpenAI Сэм Олтмен после многочисленных хвалебных отзывов сообщил в Twitter, что «вокруг GPT-3 сейчас слишком много хайпа».
Большинство сходится на том, что именно GPT-3, хотя она и является органичным продолжением более ранних версий GPT и GPT-2, представленных соответственно в 2018 и 2019 годах, стала настоящим прорывом. В GPT-3 используется 175 млрд различных параметров машинного обучения (для сравнения, в GPT-2 — лишь 1,5 млрд), алгоритм обучали на огромном массиве данных — 570 ГБ текстов, включая базу данных Common Crawl, «Википедию» и полные тексты многих книг. Для понимания объемов стоит сказать, что все статьи «Википедии» на английском составляют лишь 0,6% этого массива данных.
Все эти цифры означают, что новый алгоритм может на основании всего пары примеров соответствующего текста писать финансовые отчеты или стихи (например, GPT-3 уже написал стихи о взаимоотношениях Илона Маска — одного из основателей OpenAI — с Комиссией по ценным бумагам и биржам США), быть чат-ботом, отвечающим на вопросы медицинского характера или беседующим с пользователем от лица какого-либо исторического деятеля, и даже писать код для обучения других алгоритмов.
GPT-3 оказался прорывом скорее в смысле своих результатов, чем в смысле использованных технологий — никакого прорыва в машинном обучении при его создании не было.
Усовершенствованы, скорее, количественные показатели — огромные массивы различных текстов, сокращено время на их обработку. В основе своей GPT-3 — по сути система автозаполнения, которая может соответствующим образом подставлять следующие за написанными слова, но притом очень сложная и основывающаяся на большом количестве уже «прочитанных» текстов — от классических книг и статей в The New York Times до постов в Reddit на разные темы и фанфиков. Система основана на принципе «языковой модели», при которой алгоритм, основываясь на огромных массивах текстов, определяет статистическую вероятность того, что после того или иного слова будет то или иное другое слово, например «роза» после «алая».
Код пишет код
GPT-3 позволяет создавать чат-боты в разных сферах, по которым практически невозможно понять, общаешься ты с машиной или с человеком, и которые при некотором обучении могут компетентно ответить на многие вопросы. Одновременно с этим алгоритм предоставляет большое поле применения для злоумышленников, например, запускающих кампании по дезинформации, создающих фейковые новости или фейковые видео. Кроме того, как отмечают многие исследователи, GPT-3, как и другие ИИ-системы, повторяет свойственные людям предубеждения — как ИИ, предназначенный для поиска преступников, обращает больше внимания на чернокожих, потому что их данные чаще оказываются в полицейских базах, так и в случае с GPT-3, например, рядом со словом «ислам» часто оказывается слово «терроризм».
Есть и более фундаментальные проблемы. Ученые указывают на то, что GPT-3, очень умело подставляя нужные слова и создавая у человека ощущение «умного» собеседника, на самом деле не анализирует выдаваемые данные, а лишь умело имитирует хорошо составленный текст, подставляя наиболее вероятные слова. «Как балабол, который проходит свое первое собеседование, бездумно повторяя внушительно звучащие фразы из мемуаров генерального директора, GPT-3 генерирует хорошо звучащую чушь»,— считает профессор этики Эдинбургского университета Шеннон Валлор. «Он претендует на то, чтобы отвечать верно, но на самом деле, хотя эти ответы верны, он исходит из неверных оснований. На самом деле он вообще не понимает вопрос»,— считает и профессор информатики Вашингтонского университета Е Джин Чхве.
В то же время многие эксперты отмечают, что поразительным образом, учитывая отсутствие анализа в строгом смысле и довольно простое по своей сути машинное обучение, GPT-3 демонстрирует нечто, похожее на человеческий интеллект.
Как отмечает Аррам Сабети, один из экспертов, проводивший бета-тестирование нового алгоритма и с его помощью написавший сценарий детективной истории о Гарри Поттере в стиле американского писателя Реймонда Чандлера, «когда играешь с GPT-3, кажется, что ты видишь будущее».
«Он постоянно меня удивлял. Остроумные аналогии, обороты речи — мой опыт подсказывал, что он просто не мог это написать. Он демонстрирует вещи, которые очень похожи на общий интеллект»,— говорит он. Профессор философии Нью-Йоркского университета Дэвид Чалмерс тоже считает, что GPT-3 демонстрирует намеки на общий интеллект, похожий на человеческий.
«Я открыт для идеи, что червь с 302 нейронами обладает сознанием. Поэтому я открыт и для идеи, что GPT-3 со 175 млн параметров тоже обладает сознанием»,— говорит он. К таким мнениям подталкивают и внезапные находки GPT-3. Как отметил Джон Кармак, директор по технологиям компании Oculus VR и признанный эксперт в компьютерной графике, «недавнее, почти случайное открытие, что GPT-3 в некотором роде может писать код, уже вызывает дрожь».