5 декабря в рамках лекционного проекта Фонда Егора Гайдара состоялась лекция директора по маркетингу сервисов компании «Яндекс» Андрея Себранта. Он рассказал о перспективах внедрения искусственного интеллекта, переменах, которые произойдут в этом направлении в течение 10–20 лет, и влиянии технологий на рабочий процесс. Подробности лекции эксперта — в видео “Ъ” и стенограмме доклада.
Стенограмма лекции
Спасибо большое, Борис. Я буду не в состоянии рассказывать так фундаментально и научно, как ты рассказывал сейчас подводку. Я буду рассказывать в режиме байки про будущее. По ходу я объясню, почему это более правильный режим. Более того, я не дам простых ответов, хотя тема сформулирована — выгодный союз или жесткая конкуренция. Да когда как. Это вообще вредно — хотеть простых ответов на тяжелые вопросы. Обычно их не бывает. Если нужен короткий ответ на все то, что Борис рассказывал,— почему технологии много чего могут, а в жизни мы видим огромное количество людей, занятых работой, которую точно могли бы делать какие-то устройства,— то, наверное, во многом потому, что действительно очень тяжело заменить человека, занятого бессмысленной деятельностью. Когда бессмысленной деятельностью занимается человек, хотя бы понятно, почему он это делает. Это — какие-то социальные обязательства, это — поддержание его самооценки, и это ни разу не технологические ограничения, что нельзя вместо него поставить дорогого робота. Можно. Но он все равно ничего толкового не делает — зачем вместо него ставить железяку?
Под словом «робот» на протяжении всей сегодняшней лекции я буду понимать не механическое существо из кинофильма «Терминатор», а чаще всего либо какие-то железки плюс очень тяжелые программные комплексы, либо во многих случаях вообще алгоритмы. Причем в «Яндексе» мы как-то к этому привыкли, стандартный термин. «Робот обходит интернет» — вы же понимаете, что это не железяка бегает по всему мировому пространству и ломится в дата-центры. Это некая вполне себе программная сущность, которая обходит страницы по всему web и таким образом собирает информацию. Понятно, что алгоритм на чем-то исполняется. Поэтому я буду чередовать со словосочетанием «умная машинка». На самом деле это рассказ про то, что могут большие дата-центры, а иногда уже и легкие устройства, которые у всех нас в кармане, если на них запущен правильный алгоритм.
Когда мы говорим о том, что придут эти самые машины и поменяют рынок труда, все время такое ощущение, что мы пытаемся их поместить в современный контекст, загнать их в сегодняшнюю жизнь и посмотреть, что случится, если я завтра проснусь, а у нас бухгалтером работает робот. Но будущее устроено не так. Будущее — это не сегодняшнее, из которого мы с помощью технологий вырезали все плохое и сделали все хорошее. Это очень хорошо видно на примере образования. Понимаете, нормальное образование не в том, что мы теперь вместо доски используем интерактивную проекцию, а вместо диафильмов, которые были в моем детстве, у нас мультимедийная презентация. Только при этом сохраняется классно-урочная система, бессмысленные методические материалы и единая для всех программа изучения. Будущее — про другое. Оно про Coursera, про предельно персонализированные курсы и так далее. То есть попытка технологиями улучшить прошлое всегда выглядит коряво, неуклюже, а главное, дает хреновый результат. Это как производство, на котором не изменили производственный цикл, но поставили компьютеры, только они ничем не управляют, потому что страшно. Ну и зачем тратили деньги на эти компьютеры, которые не подключены ни к чему? А были такие производства и даже сейчас встречаются.
Мы не знаем, как будет устроено будущее. Поэтому я рассказываю байки, которые, может быть, наведут вас на какие-то мысли о том, куда это все ведет. Но не более того. Мне очень нравится история о том, как в 2014–2015 годах серьезные философы, психологи всерьез обсуждали идею, что машину можно будет научить играть в го. Авторы уважаемых журналов типа Wired писали огромные статьи на основе кучи интервью с игроками в го, погружением куда-то, что это точно еще десятилетие, потому что требует вещей, которые абсолютно не кодируемы, и что могут машины, если они даже близко не подошли к представлению том, что такое человеческая интуиция и красота. В это время люди, которые читали эти статьи и хихикали, просто писали код и учили машину играть в го. И через год, понятно, она обыграла всех, а потом ее обыграла AlphaGo Zero, которая вообще не училась на опыте человечества, а просто с нуля изобрела стратегии. Это все происходило в то время, пока теоретики обосновывали возможность этого и обсуждали перспективы. Поэтому мне немного легче говорить. Я знаю, чем занимаемся мы, я знаю, чем занимаются наши коллеги — под коллегами я понимаю далеко не только представителей наших российских компаний, хотя в этом месте Россия абсолютно на острие мировых достижений. Я общаюсь с ребятами из Google, Facebook, Amazon, и мы немножко понимаем, что мы на самом деле делаем.
Это я еще раз возвращаюсь к мысли о том, что будущее непознаваемо и, собственно, кайф этим заниматься. Вам говорят, что вообще-то это нельзя сделать, потому что машины имеют на три порядка меньше нейронов, чем человеческий мозг. Ну и что? Наплевать, мы сейчас сделаем вещи, которые человеческий мозг сделать не может. И — получается. Будущее непредсказуемо. В 1999 году мне не приходила в голову простая мысль, что уже через поколение людьми не будет восприниматься метафора «гонка по незнакомой трассе» или выражение «набери на диске телефона». «Что?» — спросит вас современный ребенок. Идея, что ты сидишь за рулем и гонишь по незнакомой трассе, через 20 лет может оказаться достаточно дикой: «Какой руль? Ты о чем?»
Я покажу полурекламный ролик такси по одной-единственной причине — надоело, что самобеглые машинки вечно показывают в калифорнийских интерьерах. Это снималось буквально несколько недель назад под Москвой. Я совершенно не хочу сказать, что «Яндекс» сделал такси, и это уникальная история для России. Есть Cognitive Technologies под руководством Ольги Усковой, которые делают великолепные вещи. Куча всего интересного делается на КамАЗе, в НАМИ, еще в нескольких местах. Через какое-то время, понятно, не по всей России, но появятся машины, в которых руль будет крутиться сам, а потом очень быстро появятся и машины, в которых руля нет. Потому что — и это еще один момент, про который все время хочется напоминать,— куча вещей связана не с технологическими, а с психологическими ограничениями. В частности, когда стали исследовать реакцию людей на беспилотное управление машиной, выяснилось, что пассажиры гораздо больше нервничают в машине, в которой руль крутится без участия человека, чем в машине, в которой руля вообще нет. Потому что ты ожидаешь, что за этим рулем кто-то сидит, что в случае аварии или нештатной ситуации кто-то за него схватится. А когда ты понимаешь, что это просто капсула, то едешь и едешь. В самолете тоже пилотов не видишь, и большую часть полета пилот не имеет никакого отношения к штурвалу. И вот эта история про то, что психологические истории гораздо больше будут определять технологические, это еще один важный аспект будущего.
Нам гораздо больше нужно сосредотачиваться на психологии людей, взаимодействующих с технологиями, чем на самих технологиях. Потому что не впервые крупные технологические прорывы меняют жизнь человечества, но впервые это происходит настолько большими темпами. Есть американская статистика, которая дает представление об изменении скорости процессов. Сколько лет потребовалось какой-то технологии, достаточно фундаментально меняющей жизнь людей, чтобы она стала доступна 25% населения? Грубо говоря, появилась первая лампочка в доме — сколько лет прошло до того момента, как в четверти домов появились электрические лампочки, утюги, стиральные машины, что угодно? Ответ: почти полвека. Когда это происходило в XIX веке, понадобилось почти полвека, чтобы электричество «доползло» до четверти американцев. Для PC потребовалось 16 лет. Для интернета — уже 7. Для социальных сетей — того, что по сути дела определяет наше общение с окружающим миром, с друзьями, с коллегами,— 5. И это серьезная психологическая проблема. Потому что ты мог вступить в жизнь оператором паровой машины, и через 46 лет в 75% случаев эти паровые машины остались на месте, и только в четверти случаев были чем-то заменены. Сегодня куча профессий рождается и умирает за гораздо более короткое время, чем продолжается нормальная трудовая активность человека.
Людям, которым в этом славном будущем предстоит жить, предстоит непрерывно переучиваться. Более того, когда мы говорим «Ребята, какой профессии надо сейчас овладеть, чтобы было интересно через 15 лет?», мы точно не знаем. Самые интересные профессии еще не возникли, и мы не представляем, какими они будут, как не представляли появления менеджера Social media, который спокойно может жить в Таиланде и зарабатывать себе заметные деньги. Какая Social media? Что такое SMM? 15 лет назад этих слов не было. Что такое оператор дрона? Почему вдруг люди, которые играют в компьютерные игры, начинают сильно интересовать министерства обороны разных стран? Много интересного происходит. И это лишь несколько примеров.
Я хочу рассказать еще о двух важных аспектах. Аспект номер один — это процессы. В модели идеального информационного общества, которое внедрялось в нас с помощью каких-то фильмов, художественных произведений или репортажей из передовых компаний, это выглядит так: огромное количество данных, умные алгоритмы, бизнес-аналитика, которая визуализирует информацию о том, что происходит вокруг, а дальше мы руками как-то это двигаем, и что-то где-то меняется. Все это очень лирично, только на самом деле не сработало. В реальности, когда в тяжелой компании возникают эти огромные dashboard, единственное, что можно сделать человеку с его слабыми мозгами, это нажраться от ужаса, а не пытаться увидеть во всем этом инсайт. И чем больше данных, тем хуже. Потому что данных может быть столько, что это будет не 437, а тысячи графиков, диаграмм и метрик. Поэтому взглянем на то, что проделало машинное обучение с моделью информационного общества.
Мы рассмотрим идеальное информационное общество, в котором окружающая среда увешана датчиками, они адекватно отдают информацию, их никто не хакает — об этом сейчас говорить не будем. Этот окружающий мир поставляет в нашу высокотехнологичную компанию огромный поток данных, который в реальном времени ложится в наши дата-центры, обрабатывается, визуализируется, представляется в человекочитаемом виде. И вот человек, напрягая мозги, смотрит на все это и принимает операционное решение, которое он транслирует другому человеку, воплощающему его в код. Этот оптимизированный код управляет нашим производством, и производство начинает что-то делать лучше в окружающем мире и так далее. Только — человек тут лишний. На самом деле хорошо обученный алгоритм на сегодня в состоянии сам принимать операционные решения, особенно в более или менее повторяющемся производственном процессе и делать это гораздо лучше любого самого опытного технолога, который жизнь положил на то, чтобы хорошо управлять процессами нефтехимического производства. Или — я сейчас называю реальные кейсы — хорошо управлять молочным производством. Уже упомянутая здесь история 2015 года с MacKinsey о том, что наличие человека в цепи принятия решений несколько непрактично, была сформулирована с американской политкорректностью. Другую формулировку каждый может произвести для себя сам в меру своей испорченности. И эту историю мы и много кто еще пытаемся донести до людей. До некоторых доходит. Некоторые говорят: «Да фигня это все! Слышали мы». Кому как.
Я, к сожалению, не могу рассказать много про Yandex Data Factory. Многие клиенты не хотят, чтобы про них публично рассказывали. По разным причинам. Но один кейс уже больше года является публичным, поэтому его можно показывать. Это история про то, как выглядит плавка металлов в современной жизни. Потому что если руда еще более или менее стандартизованная вещь, то металлолом все время разный. А в современной плавке огромное количество металлолома. В один день там с какой-нибудь автомобильной свалки пошли остатки кузовов автомобилей, в другой день была реновация сквера, и привезли чугунные ограды, это совершенно другой металл, а на выходе должно быть примерно одно и то же. Причем с очень жесткими параметрами качества, если, например, это металлургическое производство работает на экспорт. И опытнейшие технологи, металлурги, которые окончили металлургический институт и десять лет проработали на производстве, управляют, во-первых, использованием очень дорогих легирующих добавок, во-вторых, параметрами самого процесса плавки. На хорошо компьютеризованном современном производстве есть огромное количество исторических записей о том, что загружали, как вели плавку, какое количество добавок в какой момент было добавлено в печь, что получили на выходе. Так вот оказывается, что, когда у тебя есть результатов десятков тысяч таких исторических плавок, причем каждый раз с ответом, получилось, не получилось, хорошо получилось или плохо, технолог не очень-то и нужен. Потому что обученный на этом опыте алгоритм, когда привезут совершенно новый металл, примет решение лучше, чем технолог. И это проверено экспериментально на производстве.
То же самое, как ни странно, касается молочного производства. Потому что физико-химические свойства натурального коровьего молока зависят от того, насколько быстро ехал молоковоз и как сильно его трясло. В зависимости от этого режим переработки молока, скажем, в творог, должен быть другим. Опытные технологи с большой точностью почти вручную выдерживают этот процесс.
Та же история с переработкой мусора, за которой будущее нашей планеты. Мы в Москве уже начали собирать отходы в разные баки. В Европе же всерьез задумались над другим: выброшенный пластик перерабатывается в нить или в пленку, которую мы потом используем для чего-то. Но у нее должны быть воспроизводимые свойства, иначе ее никто не купит, из нее ничего нельзя будет сделать. Как этого добиться? Ведь состав пластика, оказавшегося в мусорных баках, разный. Это делает историю похожей на случай с металлургическим заводом — с этой задачей куда лучше людей справятся алгоритмы.
Еще два года назад, когда я рассказывал про все это на своих профильных маркетологических конференциях, мне говорили, что алгоритмы работают только там, где технологии, производство, железки, но ведь в креативной деятельности, в маркетинге люди думают головой. Но сейчас уже популярен Albert, который начал решать этот комплекс алгоритмов — набор типичных задач из области креативной деятельности. Приведу пример одного из клиентов этого машинного маркетингового агентства. Директор Cosabella, известной марки нижнего белья, как-то сказал о том, что бывает такое, что алгоритмы дают нам какие-то инсайты, но для того, чтобы все это выполнить, то есть на самом деле провести маркетинговую кампанию — оттестировать креатив, загрузить, оптимизировать цены, все проверить, отстроить — нужны люди с пониманием того, что они делают. Не нужны! Тут нечего понимать, и алгоритм легко можно обучить.
После того как алгоритмы «Яндекса» создали музыку по мотивам Александра Скрябина, многие нас упрекали в том, что мы просто написали музыкальное подражание Скрябину. Мол, и что? Это же тривиально. Во-первых, не так тривиально, как кажется. Еще год назад этого никто не делал, и это казалось немыслимо. Во-вторых, это было сделано нами намеренно. После того как мы загрузили сотни тысяч музыкальных треков, машина может начать сочинять все, что угодно. Но дальше возникает проблема, о которой сказал аналитик «Яндекса» Иван Ямщиков: нет объективных критериев оценки музыкального произведения. Нейросеть может записать, скажем, четыре минуты звучания одной ноты. Если бы такое сделал человек, он бы обосновал: «Я так вижу мир». А раз это сделала нейросеть, то какое же это творчество? Поэтому мы сами выбрали очень жесткий критерий: показали эти музыкальные произведения таким людям, как Мария Чернова, которая с 12 лет живет с музыкой Скрябина, влюблена в нее, работает в музее Скрябина. Сможет ли она влюбиться в ту музыку, которую написала наша искусственная нейронная сеточка «Пианола»? Может ли эта мелодия вдохновить музыкантов на красивое исполнение? Да! Нам удалось пройти этот тест, музыканты влюбились в эту музыку, говорили, что им просто в кайф ее играть. Гораздо сложнее попросить нейронную сеть писать не в стиле кого-то, а самобытно, но с помощью алгоритмов удалось записать и полностью импровизационную музыку. Причем записать так, чтобы джазмены влюбились и захотели играть то, что им предложила «Пианола». Они восприняли нейронную сеть как равного партнера, предложившего офигенную штуку, вокруг которой можно вдоволь импровизировать самим. Это история описана во введении к очень серьезной научной статье, внутри которой просто зубодробительная математика, и там она предваряется словами Ивана Ямщикова и Алексея Тихонова: «Огромное количество занятий людей, которые предполагают творческий или интуитивный характер, на самом деле поддаются современным алгоритмам. И музыка — это лишь одна из таких областей, а на самом деле их гораздо больше».
А что же тогда, спросите вы, вокруг нас нет всего этого? Есть. Вы просто не замечаете того количества задач в информационных технологиях, с которым сталкиваетесь ежедневно. Половина ответов поиска — что в «Яндексе», что в Google — вам дают нейросети, а не жесткие алгоритмы. Вся охота за спамом в ваших почтовых ящиках — это полностью машинное обучение. Люди давно перестали глазами различать спам, потому что спамеры тоже используют алгоритмы и пытаются обдурить спамооборону. Но спамооборона пока выигрывает и умудряется пропускать очень изобретательный спам совсем в исключительных случаях. Поэтому две такие суперпопулярные истории, как использование электронных систем и использование электронной почты,— это как раз тот случай, когда вы сталкиваетесь с результатом труда машинно обученного алгоритма. Каждый раз, когда вы совершаете трансакции с использованием электронных платежей, на самом деле запускается огромное количество антифродовых механизмов — иначе бы банки давно перестали иметь дело с электронными платежами, не выдержав экономической нагрузки от фрода (мошенничества в области информационных технологий). И то, что платежи проходят,— это результат того, что там действует огромное количество умных, самообучаемых алгоритмов, которые определяют фрод и пропускают платежи.
Но есть и другая история. Слышали когда-нибудь «Наутилус Помпилиус»? «Здесь мерилом работы считают усталость» — эта цитата из известной песни на самом деле очень хорошо определяет то, что происходит в экономике. Причем это не относится только к охранникам. Потому что смотришь на стартаперов, они тоже рассказывают, какие они усталые, а на выходе ноль. Но семь дней в неделю по 12 часов что-то пишут, ходят, спорят. В 90% случаев абсолютно бессмысленная работа, но они очень устают. Потом куда-то ездят релаксировать. И в общем это характерно для огромного количества современной деятельности. Результат виден на диаграмме, где одна шкала — тяжесть работы, то есть сколько часов в среднем работают люди, а другая шкала — сколько дохода приходится на душу населения. Люксембург, Норвегия, Дания — здесь люди работают не очень много. И это, кстати, один из вопросов: «А что же будет, если людям придется не работать?» Да ничего, 90% людей будут счастливы. В мире не описано случаев, когда люди требовали бы: «Увеличьте длину рабочей недели! Мы не согласны, чтобы вместо 40 часов она становилась 36, а в следующем году — 32, а потом — 30, а затем — 0». Так вот, люди, которые идут примерно к этому счастью, обитают здесь. Малое количество часов в рабочей неделе и высокий доход на душу населения. Совсем в другой зоне обитают Греция, Коста-Рика и Россия. И понятно, что не в технологиях дело, а в том, что, когда критерием качества труда является усталость, это национальная особенность. Поэтому история про то, что мы живем в этой зоне,— это история опять же про психологию людей, а не про технологические ограничения.
Но хватит о том, как машины могут управлять процессами и могут заменить операционных менеджеров, например, технолога на пресловутом металлургическом заводе или рекламного менеджера в маркетинговом агентстве. Есть еще одно изменение, которое действительно захватывает абсолютно всех, потому что мы пользуется одними и теми же устройствами по всему миру. У нас в карманах те же самые телефоны, что и у людей в Китае, в Америке, в Европе. И оказалось, что есть еще одно кардинальное изменение интерфейсов. На протяжении всей истории считалось, что надо учиться общаться с компьютером. Даже когда появились публичные графические интерфейсы, нужен был специальный человек, программист, который твои пожелания как специалиста в предметной области или просто человека переведет в некий код. Когда-то код забивался на перфокарты дырочками, потом стал записываться на магнитные ленты, затем стал возможен прямой ввод с клавиатуры. Тем не менее интерпретатором между тобой — человеком из обычного мира — и компьютерами выступал некий программист. Когда появились пресловутые графические интерфейсы, Windows, персональные компьютеры пошли в народ. Но даже тогда было огромное количество курсов для пользователей Windows. А много ли вы видели курсов для пользователей Android? Я — ни одного. Потому что, когда человеку без высшего образования или даже, прямо скажем, школьнику младших классов дарят iPhone, к нему не требуется дарить сертификат на прохождение курсов по пользованию. Человек довольно быстро справляется сам.
Пару лет назад я наблюдал — и это меня сильно впечатлило — сцену, когда еще не умеющий говорить малыш двух, что ли, лет добрался до планшета, совершенно осознанно нашел в нем иконку Skype, открыл его, там нашел по иконке бабушку, запустил сеанс связи с бабушкой и начал ей агукать и улыбаться. Он говорить еще не умеет, а Skype запускать умеет. Или эти знаменитые картинки, на которых дети пытаются, увидев бумажный журнал, что-то в нем увеличить и возмущаются и плачут, потому что оно не работает. Сломанный, блин, гаджет! Это — интерфейсы, которые стали интуитивно понятны на уровне системы ввода. Но это только полдела. Все равно предполагалось, что если человек должен совершить что-то чуть более сложное, чем кликанье на иконку, то нужно сформулировать поисковый запрос. Еще пять лет назад, чтобы хорошо пользоваться поиском, нужно было знать язык поисковых запросов. Мастера этого дела владели операторами поискового запроса. При запросе на обычном языке на выдаче была хрень.
Я помню, когда я только пришел в «Яндекс», это было 13 лет назад, я начал смотреть логи (лог-файлы.— “Ъ”). «Милый “Яндекс”, скажи, пожалуйста…» От такого начала «Яндекс» сходил с ума. Потому что он искал по тексту и начинал выводить «милый», «скажи»... Но это давно прошло, и сейчас это вызывает смех, потому что машина научилась понимать. Наконец, способ общения перестал подчиняться машине. То есть — нет, если вы работаете с интерфейсами, созданными программистами некоторых наших крупных организаций, то это формы, которые созданы программистом — рабом машины, и он пытается вас в это же рабство затащить. Есть один банк, не хочу его называть, у которого при оформлении коммунального платежа есть отдельные поля для рублей и для копеек. Программисту так было проще. Но это экзотический случай.
По-хорошему, нейронные сети и машинное обучение привели к тому, что компьютеры начали понимать — «понимать» в неких кавычках, я сейчас чуть подробнее на этом остановлюсь — звук и изображение. Если поговорить для простоты просто про звук, то некие звуковые волны, которые мы издаем, акустическая модель может превратить в некий набор фонем, а дальше — языковая модель, самообучающаяся машинка — превращает их в текст и, что более важно, в смысл. Я не случайно выбрал для примера слово «Яндекс». То есть это же не просто набор фонем — это смысл. Машинка понимает, что, когда ей сказали «Яндекс», на самом деле речь о «Яндексе», поисковой машине, об объекте, который обладает некоторыми свойствами, умениями и так далее. Более того, эти штуки стали доступны широчайшему слою разработчиков — далеко не только разработчикам Google, «Яндекс», Microsoft, у которых огромные мощности. Все это сейчас открытый код. Это еще одно фундаментальное отличие современного мира от мира пятилетней давности.
Поэтому есть стартапы, например, Everypixel, я их очень люблю, которые смогли, используя выложенные в открытый доступ технологии, сделать распознавание изображений. Я загружаю свою картинку — и в течение доли секунды получаю набор разных тэгов. Программа очень много знает про окружающий мир — она поняла, что на картинке есть горы и вообще что это европейские Альпы. Конечно, есть очевидные вещи — что здесь есть что-то зеленое. Но в то же время она понимает, что это красота природы. В то же время она понимает, что это Швейцария. Никаких геотегов на картинке нет, снято камерой, на которой нет GPS. Она понимает, что это связано с такой человеческой деятельностью, как туризм или travel. Более того, она говорит: «Слушай, мужик, тебе вообще поперло, потому что с вероятностью 99% картинку сочтут крутой». И правда, если картинку начнут оценивать люди, а не алгоритмы, она собирает довольно много лайков. То есть таким странным вещам, как эстетическая ценность картинки, машинку тоже можно научить. Не обязательно должны быть экзотические случаи типа го, фиксированной красоты позиций, потому что там красота в расположении фишек на доске, но могут быть совершенно произвольные образы. И это сейчас рутинная история. Этому свою сеть может научить любой стартап — месяц работы двух средней руки программистов. И это очень важно понимать. Это такая демократизация технологий, которую до этого человечество вообще не знало.
То же самое касается качества распознавания. Например, картинка с числами и сроками. Пять лет назад количество ошибок при распознавании на некоем стандартном дата-сете было почти 30%, и это было совершенно неинтересно. Во-первых, использовались чудовищные вычислительные мощности, почти никому не доступные. Во-вторых, иметь дело с распознавалкой, которая в трети случаев не понимает, что ей показали, совсем тупо. А человек в среднем на этом дата-сете ошибается в 5% случаев. И вот как раз за пять лет произошли кардинальные перемены. Машинка стала ошибаться меньше человека. Конечно, никогда не будет абсолютного нуля, как и у любого эксперта не бывает абсолютного нуля, но уже сейчас в среднем по больнице машина ошибается реже человека. И это работает на технологиях, которые кажутся немного странными.
Опять же, приведу пример, как вся эта волшебная кухня работает в вашей ежедневной деятельности. В психологии есть такой тест на исключение лишнего объекта. Давайте считать, что здесь четыре изображения в четырех квадратах. Какой объект, с вашей точки зрения, лишний? Кто-то говорит, что это надпись «железный замОк». С точки зрения практической психологии (а я консультировался с психологами), это правильный ответ. Шизофреники и креативные люди скажут, что лишний — снимок замка. Они видят формат, а не смысл, поскольку тут картинка, а не текст. Это вполне легальное решение этой задачки, хотя и не такое частое. Этот выбор был недоступен поисковым системам еще несколько лет назад, потому что о картинке они могли узнать только из прикартиночной подписи. А если подписи нет, то система понятия не имеет, по какому запросу ее нужно показывать. Если же выбирать между тремя подписями, если они введены с клавиатуры, то «замОк» или «зАмок» неотличимы, различия не снимаются поисковиком. Если же поработали хорошие лингвисты, то выяснится, что это два одинаковых существительных, при которых прилагательные как-то характеризуют материал, из которого они сделаны. Тогда здесь явно лишняя надпись «старая крепость», потому что у нее другое существительное. На этом и спотыкалось качество поиска. Пока не появились семантические вектора — представления объекта в многосотмерном пространстве, в котором торчат эти вектора.
Вообще любая пара цифр может считаться вектором, так как они могут являться координатами конца этой стрелки торчащего вектора. Если это трехмерное пространство, то это тройка цифр. Если это трехсотмерное пространство, то 300 цифр. Но большинство из нас не могут представить даже четырехмерное пространство, не говоря уже о 300-мерном. А машине все равно, она может свободно оперировать в многосотмерных пространствах и научиться приписывать вектора различным объектам, комбинируя их по-разному, но так, чтобы похожие объекты, находящиеся по поисковым запросам в одном классе или каталоге, имели и похожие вектора. И тут выясняется интересная вещь: пообучавшийся на всем массиве загруженной человеческой информации алгоритм дает более или менее похожие вектора для первых трех объектов (фотография замка и таблички «каменный замок» и «старая крепость»), а у таблички «железный замОк» вектор задается в совершенно другом направлении. Мы не знаем, как машина пришла к такому выводу, но она научилась делать тот вывод, который очень быстро сделали вы. История про «железный замОк» лишняя в ряду этих четырех объектов.
Семантические вектора резко увеличили качество поиска на редких и дальних запросах. Стало, например, возможно искать по смыслу документов, то есть документ мог иметь в тексте не точно те же слова, что использованы в запросе, но смысл тождественен. Так что даже без словесных совпадений поиск работает. Более того, мы можем сопоставить какие-то слова с каким-то смыслом. Когда документы составлены на разных языках, и слова звучат по-разному, но имеют похожий семантический вектор — эти документы примерно про одно и то же. Это и есть современный перевод — то, на чем спотыкались десятилетиями, пытаясь построить модель языка и как-то смэпить один язык на другой силой человеческого разума. И снова машине это удалось. Она работает в 300- или 800-мерном пространстве смыслов, и не спрашивайте, что у нее по этим 800 осям отложено.
Лучше всего это реализовано у Google, причем для очень большого количества языковых пар. Сейчас они с помпой заявили, что их наушники делают это почти в реальном времени — последнее «долизывание» технологий идет в этом направлении. То есть еще год-два — и языковые барьеры исчезнут, за исключением очень редких языков, на которых нет материала в интернете. Да, конечно, это не такого качества перевод, при котором можно позволить машине переводить, скажем, художественную литературу, дипломатические, юридические или медицинские документы, где важна каждая деталь, запятая, тональность,— здесь человеку еще останется поле для деятельности. Но обычный бытовой перевод машине будет доступен. Тем более она уже умеет переводить звук в текст, текст — в слова, слова — в смысл. То есть вы сможете разговаривать по Skype или другому средству связи на разных языках с человеком из другой страны. Skype уже пытается это делать — пока коряво, но с каждым днем все лучше, потому что он учится на ошибках. Это удобнее, чем когда с тобой работает синхронист, который не является специалистом в теме разговора, который не улавливает терминов, жаргона и т. д., а потому десять раз приходится переспрашивать, поскольку при таком переводе получается чушь. Поэтому история про то, что в мире падут языковые барьеры, реально поменяет жизнь человечеству.
А что еще машины не умеют? Тут снова приходят на помощь психологи — именно они сегодня ценнейшие сотрудники во многих информационных технологиях. Ведь люди чаще общаются невербально. Почему ни в одной крупной технологической компании не допускаются никакие удаленные сотрудники? Потому что, когда тебе нужно придумать что-то новое, тебе мало начать списываться или созваниваться. Иногда нужно просто вместе сходить пообедать или сесть в переговорке напротив друг друга, а не напротив монитора, пусть и с идеальным разрешением. Есть унаследованная от всех наших предков некая невербальная и прочая магия, которая очень сильно определяет качество общения.
Тут на сцену выходит Марк Сагар. Это человек, который живет и работает в Новой Зеландии, имеет два «Оскара». «Аватар» все смотрели? Ну вот, мимика этих самых голубых существ — очень читаемая человеческая мимика — это работа Марка. Этим же он занимался еще в нескольких фильмах. Но, собственно говоря, сделав то, что кажется очень крутым, то, что мы читаем мимику этих существ, хотя у них совершенно не человеческие лица, он как настоящий сильный эксперт почувствовал глубокую неудовлетворенность. Вокруг этого сейчас куча стартапов: как заставить Обаму произносить определенные слова — ходит такой ролик по интернету, но при внимательном рассмотрении видно, что так человеческие губы не двигаются. Попытка перенести попиксельно, как меняется лицо при разных эмоциях, при произнесении разных слов, срабатывает для поверхностной штуки, а, например, для большого кинематографа уже нет. Крупный план синтезированной улыбки выдает искусственность. Но Марк пошел дальше. Он сказал: «А давайте посмотрим, что за этим кроется, как работает улыбка?» У нас есть кожа, под ней есть мимические мышцы. Эти мимические мышцы управляются совершенно определенным набором импульсов. И физиология, и анатомия знают, как это работает. Давайте мы это целиком промоделируем. Они тестировали это в социальной службе — когда какой-нибудь одинокий австралийский пенсионер обращался в службу социальной поддержки, на экране с ним разговаривал аватар женщины. Мы моделируем, если она должна нахмуриться, улыбнуться или удивиться, что происходит в мозге, какую команду он дает мимическим мышцам. То есть картинка эмоционирующего лица строилась на уровне нервных импульсов соответствующих эмоций. Не случайно компания называется Soul Machines, потому что вот такая интересная душа у этих машин.
Пока и мы сами делаем такие же поверхностные вещи. Есть Алиса, есть режим болталки, и она обучена, как бы это мягко выразиться, на коллективном бессознательном российского интернета, как с вами разговаривать. Только без самых темных уголков — мы ей их не показывали в обучении. И сейчас, когда пытаются научить ее плохому, мы это фильтруем. Она не учится напрямую у того, кто с ней разговаривает. Но есть интересные кластеры людей, которые специально пытаются научить ее плохому. Еще мы знаем, что в Microsoft произошло с чат-ботом Tay, который был очень успешен в закрытом интернете в Китае, где никто не рискнет обучать плохому. Там все деанонимизированы — начнешь обучать плохому, к тебе очень быстро придут. Но когда ее выпустили в американский интернет, ее мгновенно обучили сексизму, нацизму, она полюбила Гитлера и так далее. Это был провал. Пытались говорить, что у нас то же самое. Иногда, конечно, даже в довольно интеллигентных местах рунета встречаются несдержанные личности. Но обучение не идет вот так в лоб — оно происходит сильно под надзором. И это тоже показывает наше будущее взаимодействие с приборами, с девайсами, с телефонами, со всем на свете. У нас пока еще нет, но во всем мире появились умные колонки, домашние ассистенты. Ты можешь поговорить с колонкой, которая стоит у тебя на кухонном столе, и попросить ее сделать самые разные вещи, начиная от «включи любимую музыку» и кончая «ой, что-то молоко кончилось, закажи, послезавтра привезут».
Еще раз — никаких ответов про будущее мы не знаем. К счастью, не знаем. Все самое интересное, что будет происходить, мы не можем даже вообразить. Но мы прекрасно понимаем одну вещь — вот эта граница между тем, что могут делать машины, и тем, что «не-не-не, только люди», все время ползет. Когда-то, чтобы доставить информацию, надо было бежать 42 километра и пожертвовать своей жизнью, чтобы донести сообщение. Сейчас нет такой ценной человеческой функции — пробежать 42 километра и донести весть. Есть другие способы передачи информации на 42 километра. Или шахматы — безусловно, интеллектуальная деятельность. Была такой до 1997 года, когда Deep Blue разобралась с Каспаровым. Но шахматы не умерли. И это важнейший урок, который мы можем извлечь из предыдущей истории. После этого люди просто перестали играть с компьютером. Они знают, что компьютер обыграет в шахматы кого угодно. Ну и черт с ним. Ведь сегодня марафоны бегают не потому, что сражаются за место на рынке труда «кого наймут скороходом». Да никого. Но бегать просто по-человечески прикольно. И смотреть на метателя копья где-нибудь на Олимпиаде тоже прикольно. Люди жизнь этому посвящают — не потому, что он ценный воин, а потому, что он соревнуется с другими такими же.
Реакция шахматистов и реакция го-сообщества сейчас такая же, какая была у Марии Черновой на музыку. Она понимала, что это не Скрябин, она Скрябина знает наизусть, но музыка звучала по-скрябински, и у Марии возникло очень много новых мыслей про то, что такое Скрябин и что он мог написать. А дальше начинается человеческое творчество. Поэтому самое интересное, что будет с нами происходить: мы будем — так мы устроены — отстаивать свою территорию, просто она все время будет расширяться. Мы не сможем сидеть все время на попе ровно и говорить: «Работа бухгалтера никогда не будет компьютеризована, там же такие неформальные вещи встречаются». Или работа юриста. Или работа врача. Да может, конечно. Но остается еще куча других дел, которые мы для себя сами придумаем. А те, кто не захочет придумывать,— ну ради бога. Охранник или оператор колл-центра не самая творческая работа.
Сейчас, например, технологии SpeechKit реально начали лишать людей работы оператора колл-центра. Но вы правда считаете, что это высокая, достойная человека работа — работать ухом? Потому что он им и работает. Он же не разбирается в вопросе. Он должен услышать, что его спросили, а дальше по скрипту попытаться провести клиента, просто зачитывая с экрана ответы. А если в скрипте что-то хоть чуть-чуть не то, сказать: «Я переведу вас на специалиста». Может, то, что мы лишаем людей этой работы, это хорошо? Может, они займутся чем-то более достойным себя?
Почему все это стало возможно? Почему все это касается каждого? Потому что есть открытый код. То, что еще пять лет назад было бы самым сильно охраняемым секретом, самой ценной интеллектуальной собственностью компании — вот эти алгоритмы — перестало им быть. Лучшие нейронные сеточки — хотите, загружайте себе на компьютер, хотите, запускайте в облаке и изучайте. Второй мощнейший способ машинного обучения — наш CatBoost, правда лучший в мире. Запускаете его, и на нем сейчас решается куча задач во всем мире. И есть очень живое сообщество людей, которые его развивают. Не хватает мощности вашей персоналки? Есть масса всего в облаках. Вам нужна для решения вашей задачи мощность, сравнимая с гугловой? Ну да, постоянно у вас ее не будет, но обучение сетки занимает конечный отрезок времени. На время обучения вы может купить. Тысяча долларов не заоблачные цены. И купите себе несколько десятков тысяч вычислительных ядер на эти самые несколько часов, которые вам потребуются. Это тоже доступно каждому. Демократизация технологий не пустой звук.
Если этих технологий почему-то нет в вашей организации или где-то, где вам кажется, что они должны быть, то это либо лень людей, отвечающих за эти решения, либо страх. А вдруг оно будет работать лучше меня и меня оставят без работы? А вдруг оно будет работать как-то так, как я не понимаю, а я привык рулить всем? Это, кстати, наиболее частый страх. Но это не причина технологической невозможности, дороговизны или какого-то еще барьера. Барьеров там вообще нет.
Скоро у роботов — помните мою первую оговорку о том, что я называю роботами,— масса вещей, которые мы считаем сугубо своими, человеческими, будут получаться быстрее, дешевле, лучше. Поэтому в итоге рано или поздно им это передадут. Резко изменились интерфейсы. Пропал барьер, что общаться с машиной может только специально обученный человек или человек, которому это дано. «Я вот такой гуманитарий, не умею со всеми этими компьютерами...» Я не знаю человека, который не умел бы общаться с iPhone. Надо научиться ловить тот кайф, который словили музыканты, которые работали с «Пианолой», когда играли ее скрябинскую музыку. Или те джазмены, или игроки в го, которые изучают игру AlphaGo: «Аааа, это же такая стратегия, которая открывает новую красоту этой игры, которую никто из людей мне не показал!» Это правда, это происходит. Надо учиться быстрее машин, но это невозможно. Они всегда будут учиться быстрее нас. Надо учиться другому.