Глубокие изменения
Какие области захватывает Deep Learning
Машинное обучение (Machine Learning; ML) в целом и глубокое обучение нейронных сетей (Deep Learning; DL) в частности — весьма популярные темы сегодня. В начале года компания ARK Invest выпустила отчет Big Ideas 2021, в котором поставила Deep Learning на первое место в списке самых перспективных секторов для инвестирования. По мнению аналитиков, глубокое обучение может стать самым важным прорывом нашего времени. В массовом сознании оно тесно связано с неким «очеловечиванием» машин: роботов, голосовых помощников, ботов, которые вроде бы должны становиться умнее и самостоятельнее. На самом же деле DL сегодня применяется практически во всех областях, где есть возможность собирать и использовать данные.
Фото: РИА Новости
Больше, чем весь интернет
По оценке ARK, DL может добавить $30 трлн к рыночной капитализации фондового рынка за следующие 15–20 лет — это больше, чем сделал весь интернет за свою историю. В течение следующего десятилетия наиболее важные программные продукты будут создаваться с помощью DL. Прорывы ожидаются в области создания беспилотников (self-driving cars), в разработке новых лекарств и во многих других направлениях. В ближайшие пять-десять лет DL будет демократизироваться благодаря платформам для разработки ПО. Но уже сейчас эти инструменты используются довольно широко.
Применение на деле
По словам директора по развитию технологий искусственного интеллекта «Яндекса» Александра Крайнова, Deep Learning применяется в продуктах компании практически повсеместно: «В "Поиске", в "Алисе", в беспилотных автомобилях, в "Переводчике", в "умной" камере безопасности, в рекламных продуктах, в "Картах", в "Маркете", в "Музыке" и других сервисах "Яндекса". DL используется для анализа текстов, изображений, звуков, для ранжирования и рекомендаций, для поиска и генерации контента и так далее».
Из стремительно развивающихся направлений применения Deep Learning Александр Крайнов выделяет беспилотный транспорт и анализ текста. «Наши беспилотные автомобили активно тестируются в разных странах, а беспилотные роботы-доставщики уже доставляют заказы пользователям в Москве в реальных условиях большого города,— продолжает он.— Что же касается текста, то это не только системы машинного перевода и персональные ассистенты. Уже начинают внедряться решения, которые, например, позволяют суммировать различные тексты и делать компактный пересказ».
DL применяется и в большинстве решений ABBYY для бизнеса, рассказала “Ъ” вице-президент по управлению проектами ABBYY Татьяна Даниэлян. «Мы используем такие алгоритмы для обработки и распознавания изображений: улучшаем качество исходных файлов, определяем тип данных, выявляем на документах печати, подписи, логотипы, распознаем документы на различных языках и штрих-коды,— перечисляет она.— Глубокое обучение также играет значимую роль в проектах ABBYY с извлечением данных из неструктурированных, полуструктурированных и структурированных документов: договоров, писем, счетов, счетов-фактур, отчетов, актов и многих других».
В ABBYY указывают на активное развитие DL в трех областях: бизнес-документы, медицина и самоуправляемые механизмы. В первом случае технологии помогают извлекать факты и выявлять связи между ними. Например, в банках DL используют для принятия решений о кредите. Из пакета документов выделяется информация о заемщике, рассчитывается рейтинг и определяется предложение. По словам Татьяны Даниэлян, такой проект реализован в «Сбере» для выдачи кредитов бизнесу. Еще один пример, который приводит эксперт,— письменные запросы от государственных ведомств в организации. Deep learning позволяет классифицировать такие запросы и готовить автоматический ответ.
В медицине глубокое обучение применяется в обработке историй болезни, медицинских научных статей и документации. «Нейросети, к примеру, составляют обобщенные профили пациентов, что позволяет выявлять неочевидные закономерности и помогать медикам ставить диагнозы. Алгоритмы глубокого обучения также помогают диагностировать коронавирус и отслеживать прогресс лечения пациента по рентгеновским снимкам легких. Третья область — это самодвижущиеся средства: квадрокоптеры, дроны, автомобили, роботы-доставщики и ассистенты. К примеру, DL используют для обнаружения и распознавания объектов, окружающих беспилотники, и для определения маршрута их движения»,— рассуждает вице-президент ABBYY.
Deep Learning широко применяется в областях, где есть много обучающих данных, или где датасеты уже собраны. Примеры, приведенные выше, уже считаются «классическими» для использования глубокого обучения. Более экзотический пример — автоматическое раскрашивание старых черно-белых фильмов, рассуждает старший эксперт Microsoft в области искусственного интеллекта и машинного обучения, кандидат физико-математических наук Дмитрий Сошников. «Глубокая нейросеть на множестве реальных примеров может "научиться" понимать, какого цвета должны быть предметы окружающего мира, и автоматически наносить соответствующие цвета на изображения. Похожий прием может использоваться и для повышения четкости фильмов и фотографий — так называемый super-resolution»,— говорит эксперт.
По словам Дмитрия Сошникова, интересные проекты с DL сейчас ведутся в области разговорного ИИ, поскольку появились очень мощные предобученные модели на базе сетей BERT и GPT. В России много исследований в этом направлении проводят в МФТИ — к примеру, Лаборатория нейронных систем и глубокого обучения Физтеха создала открытую программную библиотеку разговорного ИИ для создания виртуальных диалоговых ассистентов и анализа текста в рамках проекта DeepPavlov.
В декабре прошлого года Microsoft со «Сбером» представили совместно разработанную систему управления роботами. «Она дает возможность обучить роботов манипулировать физическими объектами непостоянной формы практически так, как это делает человек. В процессе ее создания были применены методы глубокого обучения и обучения с подкреплением»,— говорит эксперт Microsoft.
Еще один интересный пример — проект на стыке технологий и искусства, реализованный в Массачусетском технологическом институте. Исследователи разработали систему MosAIc для поиска взаимосвязей между предметами искусства из различных культур и эпох. Для анализа базы изображений предметов искусства система использует глубокое обучение.
Перспективные направления
В работе с DL главное преимущество — это наличие датасетов, на которых можно обучить модели для решения какой-то задачи. Крупные компании нередко предоставляют желающим доступ к уже предобученным моделям в виде готовых сервисов. На их базе работают стартапы и создаются интересные студенческие проекты, поделился Дмитрий Сошников.
Так, одним из призеров международного конкурса студенческих проектов Imagine Cup этого года стала команда из Таиланда, которая сделала автоматического переводчика видео с YouTube на язык жестов. С помощью Deep Learning речь переводится сначала в текст, а затем в жестовый язык, который показывается на экране с помощью анимированного 3D-персонажа. Сам анимированный персонаж был создан с помощью ИИ, который распознавал положение суставов людей на изображении.
Если вернуться к использованию глубокого обучения для бизнес-целей, то тут работают решения на стыке Big Data и DL. «Наиболее развитое и, наверное, прибыльное направление — это в первую очередь персонификация и предсказание customer journey клиента,— полагает директор по анализу данных и моделирования "Платформы больших данных" Сергей Голицын.— Вся индустрия рекламы и услуг старается сопровождать клиента практически в каждой временной точке, советуя различные сервисы и тем самым зачастую формируя интересы и потребности самого клиента. Методы построения подобных моделей могут быть различны, но даже не самая сложная нейронная сеть может принести массу пользы бизнесу».
Еще одно перспективное направление для DL — это системы детектирования, контроля и безопасности на основании компьютерного зрения. «Сейчас уже фактически доказано, что компьютерное зрение работает существенно точнее в большинстве случаев, а главное — в автоматическом режиме. Сюда относятся и self driving cars, и персонификация клиента в отделении банка, и поиск злоумышленника в метро, и даже контроль за выгулом рогатого скота, где система различает каждую буренку и ее местоположение на лугу»,— продолжает Сергей Голицын.
Третье важное направление — генеративные состязательные сети и векторные представления объектов, продолжает перечислять он. Сейчас ввиду относительной дешевизны вычислительных ресурсов можно генерировать молекулы, имеющие похожий состав и пространственные параметры, что в сотни раз удешевляет проведение экспериментов по поиску лекарств и предсказание их свойств.
В России, да и в мире, к основным игрокам рынка Deep Learning можно отнести IT-компании, банки, ритейлеров, а также представителей «традиционных» секторов экономики, например нефтегазовые компании. Последние в некоторых случаях являются разработчиками, в других — крупнейшими заказчиками решений на базе DL. При этом развитию технологий глубокого обучения препятствуют два фактора: нехватка данных и непрозрачность работы алгоритмов.
«Решить первую проблему помогают технологии transfer learning — механизмы, которые позволяют дообучить нейросети, используя небольшой набор данных из новой предметной области. Для решения второй проблемы разработчики создают пользовательские интерфейсы, которые подсвечивают информацию, на основе которой нейросети делают те или иные выводы»,— резюмирует Татьяна Даниэлян.