Поисковики чувствуют себя нейрозно
Новые ИИ-сервисы соперничают с классическими порталами
Спрос на применение искусственного интеллекта (ИИ) для обработки информации создал почву для специализированных сервисов, объединяющих нейросетевые технологии с традиционным поиском. При этом таким IT-корпорациям, как компания OpenAI, приходится отдельно договариваться с крупными издателями, чтобы избежать обвинений в плагиате. В России собственный ИИ-поисковик развивает «Яндекс», что отличает его от более консервативного в этой части Google. Однако веб-специалисты не считают, что подобные разработки когда-либо станут основным способом поиска информации.
Фото: Игорь Иванко, Коммерсантъ
Помощь в изучении научной литературы и публикаций — одна из наиболее популярных задач, которые разработчики возлагают на генеративный ИИ, следует из опроса McKinsey от февраля—марта 2024 года. О таком сценарии использования нейросетевых сервисов сообщили 6% от общего числа респондентов (об использовании ИИ в разработке в целом сообщили 23%). Этот способ использования больших языковых моделей (LLM) сформировался вопреки присущим им недостаткам и рискам.
Компания OpenAI, представляя ChatGPT в 2022 году, еще тогда предупреждала, что сервис может генерировать «ответы, которые звучат убедительно, но являются некорректными или бессмысленными» (такие случаи еще называют «галлюцинациями»). Гиперссылки, которые генерирует сервис, зачастую оказываются неверными и неработающими — даже в тех случаях, когда владельцы веб-сайтов явно договорились с OpenAI о цитировании, сообщила NiemanLab в июне текущего года. Ключевая же проблема использования LLM для поиска информации заключается в самом их характере: в модели не закладывается информация о тех событиях, которые случились уже после окончания их тренировки. Так называемая «дата отсечки знаний» существенно отстает от настоящего времени даже у самых новых LLM — например, у GPT-4 знания о мире ограничиваются октябрем 2023 года.
Нейросетевые сервисы, способные по ходу каждого запроса обращаться к актуальным данным, в этих условиях позиционируют себя как возможную замену классическим сервисам — как ChatGPT и ему подобным, так и поисковым системам вроде Google. В наибольшей степени на мировом рынке о себе дает знать ИИ-поисковик Perplexity от одноименного стартапа. Свой сервис такого же характера под названием SearchGPT разрабатывает и OpenAI, а в России нейросетевые возможности поиска реализует «Яндекс».
Новички задают тренд
Компания Perplexity была основана в 2022 году. Разработанный ей сервис полагается, с одной стороны, на LLM сторонних компаний (OpenAI, Anthropic, Mistral), с другой — на собственные результаты индексирования сайтов в интернете. Со стороны пользователя Perplexity работает следующим образом: в ответ на запрос, который может быть сформулирован и на естественном языке, он отображает «карусель» из сайтов—источников информации и дает сгенерированный на их основе ответ. Позднее подобный интерфейс в своем нейросетевом сервисе реализовал и «Яндекс».
При этом ИИ-сервисам приходится решать проблему, связанную с нежеланием ряда сайтов отдавать свою информацию сторонним компаниям. Модель, по которой работают классические поисковики (свободное индексирование в обмен на поисковый трафик), нельзя полностью перенести на ИИ-сервисы, так как те позволяют пользователям еще и получить пересказ информации с сайта без его посещения. В июне 2024 года американский Forbes сообщил, что Perplexity позволяет получать выжимку из его материалов. После дальнейших обвинений в том, что сервис в принципе игнорирует запретительные директивы в файле robots.txt (описывающие, каким роботам разрешено обходить страницы сайта и какие именно), гендиректор Perplexity Аравинд Шринивас заявил, что их игнорировала не сама компания, а ее подрядчик.
SearchGPT развернут значительно меньшим масштабом, чем Perplexity: OpenAI запустила его в июле на правах прототипа, и воспользоваться им пока может только ограниченное число зарегистрировавшихся пользователей. Его интерфейс в большей степени напоминает стандартное окно чата ChatGPT, при этом пользователи могут отдельно развернуть список цитируемых сайтов. Часть из первых пользователей, по сообщению The Washington Post, считает сервис отстающим как от Perplexity, так и от классического поиска от Google. В числе жалоб, собранных газетой, были некачественная информация из интернет-магазинов, а также случаи «галлюцинаций». При этом пользователи отмечают, что именно в части сгенерированных ответов на вопросы SearchGPT превосходит AI Overview от Google (блоком сгенерированных «быстрых ответов», отображающихся выше стандартных результатов поиска).
И OpenAI, и Perplexity явным образом договорились с крупными издателями об использовании их контента в своих поисковиках: первая — с News Corp, The Atlantic и Conde Nast, вторая — с Time, Der Spiegel и Fortune. Соглашения с Perplexity, как сказал Financial Times ее директор по развитию бизнеса Дмитрий Шевеленко, подразумевают разделение доходов от рекламы. Компания рассчитывает запустить рекламную монетизацию в четвертом квартале, по информации издания, рекламодатели смогут оплачивать показ пары из «спонсорского» вопроса и одобренного ответа на него. Как будет монетизироваться SearchGPT, пока не ясно, при этом в OpenAI сказали The Washington Post, что «бизнес-модель компании основывается на платных подписках».
Первые шаги за нейросетью
К настоящему моменту Google ограничивает свои эксперименты в области скрещивания ИИ и традиционного поиска именно блоком AI Overview. Он заменяет стандартные «быстрые ответы» только в некоторых странах (США, Великобритания, Япония и еще три; России среди них нет) и лишь по части запросов — 7% от общего числа показов, следует из июньского анализа компании BrightEdge.
В России «Яндекс» добавил нейросетевой вариант составления «быстрых ответов» в сентябре 2023 года, а спустя семь месяцев представил отдельный от классического поиска сервис «Нейро». По состоянию на август с момента запуска сервисом воспользовались около 9,5 млн человек, сообщили “Ъ” в «Яндексе». Для сравнения: аудитория стандартного поиска — около 100 млн человек в месяц, при этом 3 октября компания встроила в него функции «Нейро». В компании отметили, что к тому моменту сервис был доступен лишь частично, и называли показатели хорошими: «Почти половина из тех, кто воспользовался сервисом, остаются в нем — для нового продукта это очень хороший показатель». В компании уточнили, что 30% запросов к «Нейро» относятся к науке и образованию, а 25% — это «информационные сценарии».
Оценить, какой объем трафика на сайты приходит именно из «Яндекс Нейро», не представляется возможным, говорит руководитель направления поисковой оптимизации ФГ «Финам» Владимир Харев. Это связано с тем, что при переходе по ссылкам из «Нейро» сайтам передается тот же самый параметр, что и у традиционного поиска: «Поэтому такие визиты атрибутируются системами веб-аналитики как переход из органического поиска». В «Яндексе» заявили “Ъ”, что не видят снижения трафика на внешние сайты, а общее количество поисковых запросов во втором квартале 2024 года выросло на 8% год у году: «В том числе, мы уверены, это связано с "Нейро"».
Но будущее поисковиков не за «еще одним сервисом, открывающимся в новой вкладке браузера», считает директор по продукту Just AI Глеб Обломский: «Поиск информации обычно является предпосылкой к какому-то действию. Реальная замена текущим системам — это по-настоящему интеллектуальные ассистенты, которые будут решать задачу, а не искать данные для ее решения». Другой вариант сосуществования поисковиков и LLM — узкодоменные ИИ-помощники: «По сути, ассистенты на основе баз знаний из конкретной области. Например, по массиву корпоративных, юридических, медицинских данных». Говоря же о поиске общего характера, господин Обломский отмечает, что «никто не поменяет привычный и проверенный Google на что-то генеративное только потому, что ответ в нем дает модная LLM».
Говоря о специализированных ИИ-продуктах, стоит отметить, что топ-менеджеры «Яндекса» еще в прошлом году предвосхищали появление специализированных нейросетей для юридических или медицинских целей (см. “Ъ” от 8 сентября 2023 года). Спустя год компания подтверждала, что работает в области «создания и применения нейросетей в медицине» (см. “Ъ” от 17 сентября), но не раскрывала характер разработок.
Упрощение поиска идет всем на пользу, но в своем текущем виде ИИ-поисковики пока что не являются массовым продуктом, говорит медиатехнолог Иван Макаров: «Студенты, профессиональные медийщики использует такие возможности в гораздо большем объеме, чем остальные. Массовый же потребитель даже текущими пользуется на очень базовом уровне». По его мнению, ситуация может измениться только тогда, когда разработчики уровня OpenAI представят совершенно новый интерфейс, посредством которого можно искать информацию.