Трансформеры: искусственный интеллект
Как новый тип нейронных сетей меняет технологии
Созданный несколько лет назад новый тип архитектуры нейросетей — трансформер — применяется все в большем количестве сфер. Изначально он был создан для работы с языковыми задачами и до сих пор активнее всего применяется в этой области. Однако многие эксперты считают, что возможности трансформеров намного шире и скоро этот тип архитектуры станет ведущим в развитии искусственного интеллекта (ИИ).
Генератор приятной чуши
Трансформер — один из типов архитектуры нейронных сетей. Это сравнительно новый тип, он был впервые представлен в 2017 году — тогда о нем написали аналитики из лаборатории Google Brain. Главное отличие трансформера от более распространенных сейчас рекуррентных нейронных сетей состоит в том, что, если те обрабатывают информацию последовательно по порядку, трансформеры могут работать с информацией в другой последовательности. В числе прочего такую сеть можно распараллелить, что ускоряет машинное обучение. Иными словами, в случае с трансформером система работает со всем текстом сразу — в ситуации с языковыми задачами это дает возможность «видеть» весь текст, а не слова по порядку, а значит, лучше учитывать контекст, в котором находится слово.
Уже сейчас трансформер является продвинутым вариантом обработки естественных языков (NLP, Natural Language Processing). Как отмечают эксперты, до появления трансформера область NLP отставала от многих других сфер ИИ.
«В этой революции глубокого машинного обучения, которая произошла в последние десять лет, обработка естественных языков была своего рода опоздавшим звеном. Так что NLP было в некотором роде позади компьютерного зрения. Трансформеры изменили это»,— считает специалист по машинному обучению Университета Массачусетса в Лоуэлле Анна Румшиски.
Именно к этому типу относится знаменитый генератор текста GPT-3, Generative Pre-trained Transformer, представленный исследовательской организацией OpenAI летом 2020 года и ставший на тот момент одной из самых громких новостей в мире ИИ. GPT-3 может «умно» отвечать на многие вопросы, сочинять стихи, новостные статьи и финансовые отчеты и даже писать программный код. Такой генератор текста ничего не анализирует, он просто хорошо подбирает наиболее подходящие слова. Система основана на принципе «языковой модели», при которой алгоритм, основываясь на огромных массивах текстов, определяет статистическую вероятность того, что после того или иного слова будет то или иное другое слово, например «роза» после «алая».
Некоторые называют GPT-3 генератором «хорошо звучащей чуши», тем не менее такие разработки являются однозначным успехом в сфере ИИ.
При таких успехах многие исследователи ищут другие сферы, в которых можно применить трансформеры. Выяснилось, что они довольно универсальны и могут использоваться для решения самых разных задач. «Я считаю, что трансформеры так популярны, потому что у них есть потенциал стать универсальными. У нас есть причины попробовать трансформеры во всем спектре ИИ-задач»,— считает специалист по машинному обучению Техасского университета в Остине Атлас Ван. Одно из ограничений — более высокие затраты вычислительных мощностей при таком виде машинного обучения, а значит, большая дороговизна. Однако трансформеры все равно весьма перспективны.
От текстового к универсальному
В частности, трансформеры могут успешно использоваться в сфере компьютерного зрения — распознавания и классификации изображений. Такие разработки нужны в числе прочего для развития беспилотных автомобилей. Обычно в этой сфере применяются так называемые сверточные нейросети. Одна из важнейших задач в последнее время — масштабирование сверточных нейросетей для быстрой обработки огромных массивов данных, состоящих из изображений в высоком разрешении.
И здесь, по мнению некоторых специалистов, есть большие возможности для трансформеров, которые уже хорошо показали себя в работе с огромными массивами текстовых данных. «Трансформеры действительно имеют в значительной степени трансформационное значение для многих сфер в машинном обучении, включая компьютерное зрение»,— считает специалист по машинному обучению Владимир Халтаков, который работает в BMW над совершенствованием систем компьютерного зрения для беспилотных автомобилей. Как и в случае работы с текстом, трансформеры сразу работают со всем изображением, в то время как сверточные нейросети распознают изображение пиксель за пикселем и идут от частного к общему.
Один из примеров — модель для работы с изображениями под названием Vision Transformer (ViT), она была представлена группой специалистов из Google Brain в мае 2021 года. Этот трансформер работает по тому же принципу, что и текстовые модели, но с изображениями. В этом случае ViT работает не с отдельными пикселями, а с квадратиками, на которые делят изображение и которые содержат группы пикселей,— это делает обработку более быстрой и при этом не снижает точность, она составляет около 90%.
«Я думаю, весьма вероятно, что сверточные нейросети в среднесрочной перспективе будут заменены трансформерами для (компьютерного.— “Ъ”) зрения или производными от них»,— считает Нил Хоулсби, один из разработчиков Google Brain, работавших над ViT.
В рейтинге, который готовит проект ImageNet — это база данных для разработки инструментов распознавания образов и компьютерного зрения,— в 2022 году ViT уступала только новому инструменту, сочетающему возможности сверточных нейросетей и трансформеров. Все же варианты работы с изображениями с помощью только сверточных сетей отставали от нее.
Еще одна задача, в которой ученые хотят использовать трансформеры,— уже не работа с имеющимися, а создание новых изображений. Ведь GPT-3 может создавать новые тексты — может быть, это возможно и с изображениями. Атлас Ван из Техасского университета в прошлом году опубликовал статью, в которой рассказал о новой модели — в ее основу положены две разные модели трансформеров для работы с изображениями. Такой двойной трансформер обучался на изображениях с лицами более чем 200 тыс. знаменитостей и научился генерировать правдоподобные изображения придуманных знаменитостей со средним разрешением.
Вот еще несколько примеров возможного применения трансформеров. Это, например, обучение роботов распознаванию движений человека или обучение машин выявлению разных эмоций в речи человека. Еще один пример — программа AlphaFold, которая может быстро предсказывать пространственную структуру белка, что ускорит исследования в биологии и медицине.
По мнению экспертов, трансформеры могут также использоваться для мультимодальной обработки, то есть одновременной обработки разных типов информации — например, текстов, картинок и видео. Сейчас эта модель используется для относительно простых задач — например, для определения того, насколько соответствуют друг другу изображение и подпись в компьютерных играх. Как отмечает Маитра Рагху из Google Brain, раньше сделать нечто подобное было сложнее из-за разного подхода к работе с разными типами данных. Однако трансформеры могут упросить этот процесс. По мнению госпожи Рагху, такие модели могут иметь самые разные варианты практического применения — например, для создания систем, которые одновременно распознают голос человека и читают по губам.