Повелитель букв
Создатель проекта ReCaptcha о самом эффективном союзе человека и компьютера
Луис фон Ан с детства мечтал совмещать приятное с полезным. Повзрослев, он научился на этом еще и зарабатывать. В интервью "Секрету фирмы" Ан рассказал, как можно использовать совместные действия людей и компьютеров для решения неразрешимых, на первый взгляд, задач.
Вас называют пионером краудсорсинга и автором идеи human computation — использования совместных усилий людей и компьютеров в общих целях. Что вас вдохновило на проекты и эксперименты в этой области?
Мне всегда было интересно строить системы, объединяющие усилия людей и техники для решения масштабных задач, которые до этого невозможно было решить ни человеку, ни компьютеру по отдельности. Еще ребенком я мечтал о том, чтобы устроить тренажерный зал — электростанцию. В нем посетители занимались бы спортом в свое удовольствие и платили членские взносы не деньгами, а энергией, которую вырабатывали на беговых дорожках и тренажерах. В моих мечтах эту энергию можно было аккумулировать и продавать энергетическим компаниям. В общем, мне всегда нравилось думать о таких беспроигрышных ситуациях, в которых можно убить сразу двух зайцев.
Ваш предыдущий проект reCAPTCHA, купленный компанией Google, тоже решает такие задачи?
Да, конечно. Перед тем как его придумать, я много времени посвятил исследованиям компьютерного теста CAPTCHA в Университете Карнеги — Меллона. Эта программа знакома всем пользователям интернета. Когда вы хотите отправить сообщение, серверу нужно убедиться в том, что вы настоящий человек, а не робот. Для этого вы вводите определенную последовательность символов. Ее легко распознать человеку и намного сложнее — роботу. Но этот набор символов в CAPTCHA, к сожалению, был абсолютно бессмысленным. Миллионы людей по всему миру вводили их десятки миллионов раз в день и, по сути, тратили огромное количество времени на какую-то абракадабру. Меня тяготил этот факт, и я хотел предложить альтернативу. Я рассуждал так: "Если мозг человека каждый раз способен тратить 10 секунд на решение тех задач, которые не может решить компьютер, надо попробовать предложить ему такие задачи". Решение нашлось в области оцифровки. Зачем просто вводить символы, если можно одновременно с этим приносить пользу человечеству, оцифровывая старые книги? К тому же это позволяет экономить.
Как это работает?
Процесс оцифровки выглядит так. Сначала сканируется старая книга, а затем компьютер должен расшифровать слова в получившихся снимках при помощи программ распознавания символов. Проблема заключается в том, что распознавание не всегда проходит гладко. В книгах старше 50 лет нераспознанными остается около 30% слов. Именно их reCAPTCHA предлагает расшифровать людям. Когда вы заполняете форму, вам показывают два слова. Одно из них программе известно, и с помощью него она определяет, что вы человек. Другое слово взято из отсканированной книги, и, вводя символы в reCAPTCHA, вы помогаете оцифровать ее.
А что если человек ошибся, вводя это второе, неизвестное слово?
Мы повторяем этот процесс для разных пользователей. Если 10 человек расшифровывают неизвестное слово одинаково, вероятность ошибки очень мала. В итоге нам удается оцифровывать таким образом 2,5 млн книг в год. И это просто благодаря тому, что люди вводят два слова за 10 секунд.
После того как reCAPTCHA была куплена Google, вы основали систему онлайн-обучения языкам Duolingo. Почему выбрали именно сферу онлайн-обучения? Используете ли вы в новом проекте те же принципы совместного решения задач?
Я вырос в Гватемале, где многие люди испытывают недостаток в деньгах, и всегда считал, что одна из причин социального неравенства в обществе заключается в недоступности образования. Сейчас иностранные языки изучают 1,2 млрд людей на Земле. Большинство из них учат язык, чтобы улучшить свою жизнь: например, устроиться на работу или попасть в зарубежный университет. Но на изучение языка нужно потратить много денег, а у людей, которые больше всего заинтересованы в том, чтобы заговорить, например, по-английски, этих денег нет. Они не могут посещать специализированную школу или курсы, не могут позволить себе услуги репетитора или даже программу Rosetta Stone. Я и мой партнер Северин Хакер нашли выход из ситуации. Мы пошли по тому же пути, что и с reCAPTCHA, объединив стремление миллионов людей учить языки, предложив им совершенствовать свои знания и при этом коллективно создавать совершенные переводы различных текстов. Объем рынка переводов составляет около $30 млрд в год, поэтому на такие тексты есть спрос. Кроме того, накапливая все новые и новые данные с переведенными фразами, мы создаем качественную платформу обучения языкам. Чем больше людей участвует в обучении, чем больше среди них тех, кто владеет несколькими языками, тем совершеннее становится платформа.
Каким языкам пользователи могут научиться?
Мы запустили Duolingo в конце 2011 года на шести языках: португальском, испанском, английском, французском, немецком и итальянском. В конце прошлого года мы решили открыть на базе Duolingo языковой онлайн-инкубатор, где пользователи могут совместно участвовать в создании языковых курсов. Кстати, первым курсом, добавленным благодаря инкубатору, стал русский. Но он будет полезен не только тем, кто хочет учить русский, но и русским, которые хотят учить другие языки. Насколько мы понимаем, у тех россиян, кто принимает участие в международных проектах, такая потребность есть.
Вы помогаете компьютерам уяснить специфику человеческого мышления и решать задачи, которые без помощи человека они решить бы не смогли. Насколько популярны такие системы сейчас и что ждет их в будущем? Смогут ли компьютеры научиться решать подобные задачи без человеческого краудсорсинга?
Измерить популярность я могу только у тех проектов, в которых принимал участие. ReCAPTCHA работает примерно на 350 тыс. сайтов в мире, и ею пользуются 100 млн раз в день, а у Duolingo — 10 млн активных пользователей. В обоих случаях эффективно и бесплатно решаются важные задачи. В том, что компьютеры когда-нибудь научатся решать их без помощи человека, я не сомневаюсь. Но когда это произойдет, мы не знаем. Пока же и нам, и компьютерам есть чем заняться.