В конце 2006 года стартовало сразу несколько проектов, нацеленных на переворот в области поиска информации. В случае их успеха может радикально измениться лицо всего интернета. Интересно, что среди них есть и проекты российских компаний.
«Допустим, у вас есть вопрос, на который я могу дать ответ: „1” или „2”; если я отвечаю, например, „2” – вы получаете один бит информации и что-то для себя понимаете»,– говорит Валерий Бардин, директор по развитию компании «Инфоскан».
«Информации без субъекта и без вопроса не бывает. Если вы не задавали вопроса или это ответ не на ваш вопрос, это и не информация вовсе»,– считает Бардин. По его мнению, то, чем наполнен современный интернет, это не информация, это – мусор. Понятие «информация» неотделимо от понятия «смысл». Без него информация перестает быть таковой. «Если я дам вам ответ на китайском, а вы его не знаете, будет ли это для вас информацией?» – спрашивает Бардин. И сам отвечает: «Это будет тарабарщина». Такой, по его мнению, тарабарщиной и забит интернет. Разгрести его от мусора, превратив в адекватную «сигнальную систему», где запросу соответствует ответ, как раз и призваны новые инструменты, которые готовятся к реализации амбициозными компаниями по всему миру. Несмотря на то что научные разработки, на которые они ссылаются, ведутся почти два десятка лет, запуск большинства новых продуктов в сфере поиска нового поколения запланирован на осень 2007 года, а говорить о них стали лишь год назад. Тем не менее их авторы обещают не только «убить Google», но и продемонстрировать миру принципиально иную модель интернета.
На сайте компании PowerSet нарисован огромный знак вопроса. До недавнего времени таким же знаком вопроса для внешнего мира являлась и сама компания PowerSet. Основанная в начале 2006 года, она объявила о работах по созданию «уникальной технологии», которая позволит человеку общаться с поисковой машиной на «привычном» языке. Эта система должна устранить все проблемы, возникающие у пользователей при поиске по ключевым словам. Инициативу амбициозной команды поддержала целая группа авторитетных в дот-комовских кругах инвесторов, а через некоторое время PowerSet привлекла венчурные инвестиции фондов Foundation Capital и The Founders Fund. «Мне потребовалось 30 минут, чтобы понять: проект того стоит»,– говорит Пейман Нозад, основатель компании Amidzad Ventures, одним из первых разглядевший в свое время звезды Google и PayPal. «Мы буквально дневали и ночевали с ними в одном офисе в Пало-Альто, участвуя в мозговых штурмах, и в буквальном смысле видели, как рождается великий проект, который произведет революцию в Сети»,– поддерживает Нозада специалист по искусственному интеллекту, пионер электронной коммерции Джей Тененбаум.
Детали проекта вдохновленные инвесторы все же не раскрывают. Тем не менее именно после подобных заявлений рейтинги цитируемости темы «поисковики нового поколения» достигли космических высот. Осень 2006 года специалисты назвали моментом рождения этого явления, а осенью 2007 ожидают его предъявления широкой общественности.
Плеяда убийц
«Сегодня в голове у каждого человека
две модели интернета,– говорит Валерий Бардин.– Первая навязана
голливудскими фильмами вроде „Миссия невыполнима”. Там за героем
гонятся, стреляют, а он вбегает в комнату, припадает к компьютеру и
раскрывает мафию. Секунды за четыре. Потом он прыгает в окно, но
мафия уже побеждена. Это модель „компьютер – умная машина”. Однако,
столкнувшись с интернетом в обычной жизни, человек попадает,
например, в чаты. И ему совершенно непонятно, как тут разоблачить
мафию, добиться успеха в бизнесе или найти эту чертову поликлинику.
В фильмах, надо сказать, информационная модель интернета выглядит
гораздо лучше».
По мнению Валерия Бардина, над интернетом сейчас нависла тень «оранжевой революции». Что имеется в виду? «Революция происходит тогда, когда на пути какого-то процесса ставят запруду»,– поясняет Валерий. Интернет растет бурно. Пользователей становится все больше, они порождают массивы данных, справляться с которыми при помощи старых инструментов все сложнее. А оранжевая – потому что те, кто провозглашает эту революцию, выглядят пока как маргиналы, разбрасываясь заявлениями вроде «удавим Google».
По мнению пропагандистов новых подходов, проблема уже не в повышении эффективности прежних методов поиска, а в том, что они перестают быть в принципе адекватными среде. Мина замедленного действия современных технологий поиска – поиск по образцу. Такими образцами становятся слова, которые пользователь вводит в запросе. Этот подход отлично работает, если документов немного, но что делать, когда в результате поиска их выдается, скажем, несколько десятков тысяч? Что делать, если вас зовут Сергей Иванов, но поиск приносит вам лишь новости о министре обороны? И как на запрос о дне рождения Пушкина перестать получать информацию о ресторане «Пушкин» или событиях на площади Пушкина? Кажется, вполне правы те, кто призывает оперировать не документами, где встречаются набранные в запросе слова, а смыслом, заложенным в отобранных документах.
Самая лучшая модель предмета или явления – сам предмет или явление. Самый лучший интерпретатор вопроса – сам вопрошающий. А самый лучший поисковик – человек. Подобный принцип поставили во главу угла «социальные поисковики» – сервисы, где запутавшийся во Всемирной сети пользователь может адресовать запрос более опытным собратьям.
Первые такие проекты появились еще в конце 1990-х годов. С форматом экспериментировало большинство ИТ-гигантов, например Yahoo! и Google. Однако опыт первопроходцев оказался не очень успешным. Проблема была как в «пропускной способности», так и в том, что службы не могли обеспечить высокий экспертный уровень отвечающих. Попытки повысить его, коммерциализировав поиск, закончились провалом. Так, Google, предлагавший пользователям платить за ответы, в конце 2006 года закрыл проект. Такая же судьба постигла и петербургского предпринимателя Дмитрия Верешкина, создавшего в 2001 году фирму «Интернет хелп». Ее сотрудники, сидя в офисе, играли роль посредников, оптимизируя для поисковой машины вопрос, заданный человеку человеком. Предполагалось, что технология станет неплохой базой для систем онлайн-поддержки клиентов коммерческих банков. Первую такую систему «Интернет хелп» внедрил в Петровском народном банке (Санкт-Петербург). Впрочем, партнерство здесь ограничилось тестированием работы системы.
Тем не менее идея привлечения человека к «осмысленному поиску» не была забыта, хотя и претерпела удивительные изменения. В совершенно иной форме, но идентичную по сути идею «социального поиска» реализуют проекты, которые пользователи интернета привыкли называть «хранителями закладок». Самый известный из них – Del.icio.us, чье название читается слитно и в таком виде переводится с английского как «прелестный» или «вкусный». Формально с помощью Del.icio.us можно создавать подборки ссылок. Однако по мере развития у сервиса появилась интересная особенность. Система учитывает все ссылки, сохраненные всеми пользователями, становясь таким образом копилкой народной мудрости – подборкой источников, которые признаны лучшими в ответе на искомый вопрос. При большом массиве информации такой отбор становится весьма качественным, а поиск в системе – высокоэффективным. В России аналог Del.icio.us также имеется. Сервис BobrDobr запущен в начале января этого года. Проект работает в тестовом режиме, и пока в нем зарегистрировались чуть более 600 пользователей.
Пушкин vs Лермонтов
Если на сайте www.dialogus.ru
набрать вопрос «кто убил Пушкина?», вы получите ответ: «Лермонтов».
Однако это не повод скептически относиться к проекту компании ОАО
«Корпорация новых технологий», основанной экономистом Андреем
Буничем, известным также по информационному проекту Bunich.ru.
«Новые технологии» по замыслу инвесторов должны стать
бизнес-инкубатором, где будут создаваться, доводиться до ума, а
затем выпускаться в большое плавание перспективные проекты в сфере
информационных технологий. Один из этих проектов – поисковик нового
типа «Диалогус», слоган которого «Здесь находят ответы».
Сергей Москалев, руководитель проекта «Диалогус», всегда интересовался поиском информации. Он участвовал в создании поисковика Punto.ru, совместно с «Апортом» запускал электронную версию Энциклопедического словаря Брокгауза и Ефрона.
«Меня всегда раздражало, что на вопрос „когда родился Пушкин?” поисковик может ответить все что угодно – от адреса одноименного ресторана до места установки памятника»,– говорит Сергей Московцев. Справиться с такой неопределенностью и должен проект «Диалогус». Поиск точных ответов – высшая цель этого поисковика. Хотя… что такое точный ответ? «Медийное поле отражает всю совокупность заблуждений,– говорит Валерий Бардин.– Поэтому если в прессе упоминались данные, что Пушкина убил Распутин, поисковик это покажет. Спорить не станем. Поиск истины не является нашей задачей».
Основным делом «Диалогуса» на первом этапе видится подготовка рефератов, в которых содержится подборка тезисов по интересующему пользователя вопросу.
«Что Булгаков говорил о смерти?», «что Толстой думал о любви?», «почему произошла катастрофа самолета в Иркутске?» – такого типа вопросы предпочитает «Диалогус». «Мы хотим, чтобы машина выдавала не огрызки, а осмысленные куски текста, сопоставляла и пыталась их понять,– говорит Сергей Московцев.– Когда мы получим такой результат, то смело сможем показывать его пользователю».
Нет вопросов
В отличие от «Диалогуса», «Инфоскан»
точные ответы искать не собирается. «Само толкование идеи поиска
для нас довольно спорно,– говорит Валерий Бардин.– Задумайтесь: а
что вообще человек ищет, задавая вопрос?»
Однажды, еще в 1970-х годах, в Институте Курчатова заметили интересную особенность эксплуатации вычислительного центра. Туда приходили люди, приносили программы на перфокартах, заводили в машину данные, отлаживали. Однако большинство так и не доводили вычисления до конца. Они забирали свою колоду перфокарт и уходили переформулировать задачу.
«Мы все время исходим из модели, что у человека есть готовый вопрос и он хочет получить на него точный ответ. Но такое как раз встречается очень редко,– говорит Бардин.– Чаще всего нас интересует какая-то определенная тема, и мы ее начинаем „копать”. Находим первую статью, получаем первичную информацию – и меняем формулировку запроса. Углубление в информацию чаще всего показывает, что вопрос надо ставить по-другому. Мы начинаем искать „очиститель воздуха” – и выясняем, что нам нужен не очиститель, а кондиционер. Или вообще пульмонолог. Порой в процессе поиска уточнение вопроса важнее, чем конкретный ответ»,– заключает Валерий.
Такой принцип и предполагается реализовать в проекте «Инфоскана». «Система – не универсальный гуру, который знает ответы на все вопросы,– продолжает Бардин.– Она референт, который побуждает клиента напрячь собственный интеллект».
Убийца убийц
«Попытка заставить машину извлекать из
текста смысл, на мой взгляд, рождается из любви технарей и ученых к
использованию имеющихся инструментов на 200% – даже в задачах, где
они непригодны,– говорит руководитель отдела веб-поиска компании
„Яндекс” Александр Садовский.– Возможно, вы слышали мелодии,
исполняемые на принтере или дисководе; видели картины, нарисованные
с помощью алфавитно-цифровых символов; сталкивались с конкурсами,
на которых разработчики стремились уместить программу в 128 байт.
Все это вызов и способностям, и технологии. Научить глупую машину
извлекать смыслы из текстов – разве это не очаровательно?»
В компании «Яндекс» – лидере российского интернет-поиска – не верят в то, что какая бы то ни было молодая поисковая система способна достичь серьезных успехов на этом поприще в ближайшие годы. Однако, несмотря на критичное отношение к «модным концепциям», в стороне от них компания не остается. Автоматическое извлечение фактов – имен и фамилий, географических названий – и еще ряд сервисов, используемых в проектах «Яндекс. Новости» и «Яндекс. Маркет», вполне могут быть отнесены к шагам в этом направлении. Google – мишень (скорее, условная) всех поисковых стартапов – тоже ведет соответствующие работы.
«В отличие от многих могу сказать: с Google мы не соревнуемся»,– говорит Валерий Бардин. Чего же тогда ждать от амбициозных стартапов? «Того, что поиск в интернете, а вместе с ним и вся Сеть, начнет здорово меняться. И в ближайшие пару лет интернет изменится так сильно, что, возможно, мы его даже не узнаем».