У искусственного интеллекта заканчиваются данные

Почему нейросетям все сложнее получать информацию для обучения

Моделям ИИ не хватает данных для обучения. Согласно последнему исследованию Data Provenance, объем контента, который используют разработчики нейросетей, резко сокращается. Особенно заметной эта тенденция стала в последний год, пишет The New York Times. Аналитики изучили порядка 14 тыс. доменов и пришли к выводу, что многие онлайн-платформы ввели ограничения на сбор данных со своих сайтов.

Фото: Евгений Павленко, Коммерсантъ

Компании опасаются, что, помимо общей информации, к разработчикам могут попасть и персональные данные пользователей, объяснил программист, эксперт в области IT-технологий Кирилл Ситнов: «Многие начали закрывать доступ к своим базам данных. Есть интересная история, как нейросеть где-то около года или полутора лет назад при общении с несколькими пользователями сказала, что просматривает их почту. Может быть, это просто ошибка самого ИИ, который выдал этот ответ, а, возможно, у него был доступ к такой информации. Мы, конечно же, правды не узнаем, но в Google максимально открещивались от этой новости.

Многие компании, скорее всего, опасаясь того, что персональные данные станут общедоступными, решили позаботиться о том, чтобы всю эту информацию начинать закрывать от нейросетей.

Ведь говорилось о том, что начали даже разрабатываться специальные нейросети, которые будут распознавать голоса, для того чтобы изучать ролики, к примеру, с YouTube. Использование таких инструментов в первую очередь говорит о том, что разработчики, вероятно, скоро наплюют на все авторские права и просто начнут обучать нейросети на чужом контенте непосредственно с различных видеохостингов. Если же вопрос касается именно YouTube, то и сама площадка запрещает прямое заимствование контента».

Претензии к искусственному интеллекту есть не только у пользователей, но и крупных компаний. Одно из громких дел — иск The New York Times к OpenAI: издание обвинило техгиганта в краже своей интеллектуальной собственности. Подобные вопросы возникали и к Google. Весной 2024-го зарубежные СМИ писали, что для обучения своих моделей ИИ IT-компании используют оригинальный контент миллионов YouTube-роликов. Однако дальнейшее ограничение этой информации приведет к откату технологии на несколько лет назад, уверен независимый эксперт по информационной безопасности Яков Гродзенский:

«Нейросети не могут взять информацию ниоткуда. С помощью роботов изучается огромное количество сайтов, оттуда, соответственно, ИИ получает первичную информацию, затем с помощью специальных математических алгоритмов ее обрабатывает, убирает шум, формирует некую базу знаний, которую потом использует.

При сборе информации возникает две проблемы. Первая — совершенно спокойно могут сюда попадать и разнообразные персональные данные. Второе — на большом количестве сайтов размещаемый контент помечается значком копирайта, и использование информации с этой площадки правообладателем разрешено только при подписании, допустим, каких-то письменных соглашений. Для компаний-разработчиков нейросетей все это означает увеличение затрат, необходимость поиска каких-то альтернативных источников или покупки лицензии на использование данных. И, конечно, основное — это снижение качества модели. То есть чем больше данных, тем лучше этот показатель».

Ограничение потребляемых данных приводит к так называемым галлюцинациям искусственного интеллекта, когда нейросеть, не зная ответа на вопрос пользователя, выдает случайные результаты. Вместе с тем некоторые эксперты полагают, что нехватка информации — не основная проблема, с которой сталкиваются разработчики. Так, по словам директора и партнера компании «IT-Резерв» Павла Мясоедова, сейчас отрасли нужны большие вложения, чтобы выводить технологии на новый уровень: «Мы просто подошли к тому моменту, когда нам нужно залезть еще на более высокую гору, и для этого нужно время и деньги.

Это не может произойти за один день, потребуются долгосрочные инвестиции, тогда лет через десять мы увидим еще один кратный, такой же фантастический скачок, как было с языковыми моделями.

Существуют некоторые прототипы, которые достигли больших результатов, тот же самый ChatGPT. В рамках общения с ним нам, правда, кажется, что у программы есть сознание, глубокий интеллект, она отвечает на нестандартные вопросы нестандартным образом.

Как только мы хотим увидеть какие-то дополнительные способности его проявления в физическом мире, например, чтобы робот с нами не только говорил, но и мог двигаться, что-то делать, нам нужны большие выборки, не только тексты, картинки, а какие-то логические цепочки, как человек управляет автомобилем, как он ходит, как он реагирует. Вот проблема сейчас в том, чтобы собрать несколько выборок. Нам нужно соединить ряд больших сложный комплексных моделей, для чего требуются огромные инвестиции».

По мере роста негативной реакции к нейросетям, многие владельцы онлайн-платформ стали брать плату с разработчиков за использование своих данных. Другие заключают специальные соглашения, которые регулируют доступ к контенту.


С нами все ясно — Telegram-канал "Ъ FM".

Анна Кулецкая

Вся лента