«Мне говорили, что это никогда не будет работать»: как российский инженер Google научил телефон понимать жесты
15 октября 2019 года компания Google презентовала свои новые продукты, в том числе показала следующую версию своего смартфона — Pixel 4. Новинка умеет распознавать пользователя по лицу под любым углом. Кроме того, устройство получило новую технологию — Motion Sense, которая позволяет ему понимать жесты пользователя. Рядом с камерой Pixel 4 расположился мини-радар, который понимает движения рук человека без прикосновения к экрану. Над его созданием в рамках проекта Soli, основанном на технологии радарного датчика, последние пять лет работал Иван Пупырев, руководитель проектов лаборатории Google Advanced Technology and Projects (ATAP), которая занимается нестандартными разработками.
До того, как прийти в Google, Пупырев, выпускник Московского авиационного института (МАИ), успел поработать с Disney и Sony. В Disney он создал 17 интерактивных технологий, часть из которых компания задействовала в своих парках аттракционов. Самая главная из них — Touché, которая позволяла распознавать прикосновения человека к предмету, растению или даже воде.
Работая в Sony, Пупырев еще до появления первого iPhone в 2007 году предлагал выпустить мобильный телефон с сенсорным дисплеем, но в компании не поддержали эту идею, хотя Пупырев уверен, что японская корпорация могла опередить появление iPhone. Пупырев и его коллеги из Sony придумали другой проект — Gummi. Это небольшой дисплей, на котором для перемещения объектов можно водить пальцем по оборотной стороне устройства. Sony применила технологию задней сенсорной панели на игровой консоли PlayStation Vita, которую выпустила в 2011 году.
Forbes побеседовал с инженером о невербальном взаимодействии человека с техникой, привычке людей к кнопкам, «умных куртках» и «сумасшедших идеях», которые работают.
Чем отличаются технология Soli и датчик Motion Sense в смартфоне Pixel 4?
Motion Sense — это не другая технология, это та же самая Soli. С точки зрения брендинга Pixel 4 в Google решили назвать ее Motion Sense. В телефоне у нее более узкое применение: она должна распознавать взаимодействия пользователя с телефоном. Для того чтобы пользователю было понятнее, что это за технология, ее назвали Motion Sense.
Какой функционал Soli задействован в смартфоне?
Сама по себе технология может делать много вещей. Так как она новая и была создана с нуля, мы решили ограничить ее использование. Кроме того, мы столкнулись с большим количеством технических трудностей при ее внедрении.
Сейчас технология используется для распознавания человеческих действий. Философия применения Soli в интерфейсах состоит в том, что смартфон должен понимать, что вокруг него происходит, и это не должно требовать от пользователя каких-то специальных действий. Это то, что мы называем невербальное взаимодействие — без использования голоса или кнопок. Мы заинтересованы в том, чтобы телефон был умный, как человек, и понимал, что происходит вокруг, понимал контекст.
Сейчас, например, в нем есть функция, которая позволяет жестом убавить звук звонящего телефона. Можно жестом отключить звонок или будильник. Это очень удобно, потому что когда в семь утра звонит будильник и ты пытаешься проснуться, тебе не надо брать телефон и нажимать какую-то кнопку — ты просто протягиваешь руку и звук отключается сам.
В Pixel 4 есть также технология идентификации пользователя по лицу. Тут всегда возникает вопрос: когда должны включаться камеры распознавания? Если они работают все время, то у вашего телефона быстро сядет батарейка. Поэтому телефон должен распознавать «знаки», которые сигнализируют о том, что пользователь намеревается использовать эту функцию. Soli позволяет нашему телефону понимать намерения. Если Pixel 4 лежит на столе, а рука пользователя протягивается к нему, в этот момент камеры уже активируются и начинают работать еще до того, как владелец поднес телефон к лицу. Эта комбинация сенсоров ускоряет процесс и сохраняет заряд батарейки.
Последняя функция состоит в том, что когда телефон лежит на столе, а вас рядом нет, то его дисплей выключается. А когда вы подходите к телефону, он снова включается.
Сенсор может делать гораздо больше, но все эти вещи новые для пользователя. Поэтому мы бы хотели, чтобы пользователи привыкли к тому, что есть сейчас, а потом подумаем о расширении возможностей.
С какими сложностями вы столкнулись при внедрении Soli в Pixel 4?
Внедрение любой технологии, разработанной в лаборатории, в продукт — это долгий и тяжелый процесс. Когда вы работаете над исследованием, вам надо показать, что технология работает хотя бы один раз. Когда вы работаете над продуктом, нужно показать, что технология работает всегда. Вам нужно принять во внимание огромное количество ситуаций, при которых она не будет работать. Что происходит с Soli, когда человек роняет телефон, что происходит, когда другие сенсоры включены, есть ли какое-то ненужное взаимодействие между другими сенсорами и Soli? Ни у одной компании в мире нет опыта внедрения радара в мобильный телефон. Поэтому нет никакой документации на этот счет.
Поскольку индустрия мобильных телефонов уже довольно развитая, большое количество знаний о том, как делать телефон, находится на фабриках. У фабрик, которые делают телефоны, есть много наработанных производственных технологий. Но когда они получают новую технологию, они тоже не знают, что с ней делать. Им нужно выстраивать новую продуктовую линию, тренировать операторов на фабрике, определять возникающие проблемы, потому что они еще никогда не внедряли эту технологию. Нужно учитывать огромное количество деталей, потому что, когда ты выпускаешь миллион телефонов, маленькая деталь может повлиять на тысячи людей.
Другая проблема всегда состояла в том, что когда вы выпускаете на рынок новую технологию, большинство пользователей не знакомы с ней. Есть люди, которые любят технологии и понимают их. А есть люди, для которых телефон — это просто вещь, которой они будут пользоваться каждый день. Зачастую им нужно объяснять, как она будет работать. Внедрение любой технологии требует изменения поведения пользователя, а это тяжелый процесс. Люди как выучились нажимать одну кнопку, так и нажимают ее всю жизнь и не желают ничего менять. Поэтому нужно вкладывать огромное количество денег в маркетинг, делать видео с объяснениями, помогать пользователям осознать пользу от телефона и научиться обращаться с ним правильно. Соответственно, чем больше новых фичей вы выпускаете на рынок одновременно, тем дороже и тяжелее этот процесс.
Soli вы разрабатываете давно. Как Google решилась использовать ее в своем телефоне?
Я не могу раскрывать детали того, как это работает внутри Google. Общий процесс везде один и тот же — во всех странах мира, в любой компании. Процесс состоит в том, что любая лаборатория, которая придумывает новые вещи и создает инновации, должна себя рассматривать как стартап. У вас должен быть не только менталитет стартапа, но и агрессивное бизнес-взаимодействие. Мы рассматривали все команды внутри Google, а их было много, как будто мы — стартап, а они — наши клиенты. И как любой стартап, ты обиваешь пороги и пытаешься убедить эти команды, что им полезен твой продукт — ходишь пьешь с ними кофе, проводишь презентации, сравнение технологий, рисуешь графики.
То есть вам пришлось «продавать» свою технологию Google?
Конечно! Вы же понимаете, что у каждой группы внутри компании есть свой PNL (profit and loss — прибыль и убытки. — Forbes). Соответственно любой, даже маленький продукт должен приносить деньги. Сотрудники должны понимать, сколько им позволит заработать то или иное вложение. С точки зрения Pixel 4 одна из важных вещей, которую мы обсуждали внутри компании, — это сила Google в создании софта. Мы считаем, что были и остаемся самой сильной софтверной компанией в мире, особенно в том, что касается искусственного интеллекта. Soli позволяет нам использовать наше программное обеспечение, предоставляя богатые данные от сенсора в контексте использования телефона.
Как вы обеспечиваете конфиденциальность данных пользователя в Pixel 4?
Для того чтобы устройства, которые нас окружают, были по-настоящему умными, они должны понимать, что происходит вокруг. Они не могут быть слепыми и только слушать, они должны видеть вокруг себя, не нарушая конфиденциальности. Никто не хочет, чтобы на него смотрела камера из стены. Радар обладает уникальными качествами — у него нет проблем с конфиденциальностью. Сигнал, который вы получаете от радара, вы можете показать любому сотруднику службы безопасности, и он ничего там не увидит, потому что сигнал радара не является интерпретируемым для человека. Это сложный сигнал, который работает в другом измерении. Мы сами не понимаем, почему сигнал так выглядит. Расшифровать его можно, только если вы используете наши секретные алгоритмы. Эти алгоритмы, которые позволяют телефону понять действия человека, совершенно новые. Нет никакой литературы, книжек или статей на эту тему.
До этого момента вся разработка радаров была сконцентрирована в военном секторе, в авиации. Но там были совсем другие параметры: огромные дистанции, большие устройства, которые потребляют много энергии. А мы работаем на маленьких дистанциях, чип малюсенький и количество энергии, которое мы можем использовать, тоже маленькое, так как мы работаем со смартфоном. И никаких работ на эту тему нигде нет, поэтому мы придумали все с нуля.
Сколько лет вы создавали технологию и как это происходило?
Я пришел в Google в 2014 году, как раз встал вопрос, что я буду делать. Три месяца я думал над ним и предложил разработку новых сенсоров на основе радаров. До этого я много времени посвятил распознаванию человеческих жестов и взаимодействию человека с компьютером. Я знал, что хороших сенсоров нет. В основном были только камеры, а это неудобный сенсор — он медленный, дорогой и использует огромное количество энергии. Много недостатков. Я предложил принципиально новый сенсор, на основе радаров. Мне сказали, что это идея интересная, но ее невозможно воплотить, но, мол, попытайся, дружок.
В июне 2014 года я получил одобрение и один начал эту работу. Позже выросла команда, потому что такую работу сложно провести одному: нужны специалисты по радарам, специалисты по искусственному интеллекту, специалисты по UX, разработчики софта и «железа». Первый прототип мы сделали очень маленькой командой, там было буквально несколько человек.
Потом команда сильно выросла?
Это десятки человек. Когда вы разрабатываете новую технологию, то нанимать много людей вредно: у каждого свое мнение, и вы тратите много времени на непонятные разговоры. Для любой по-настоящему новой идеи нужен один лидер и небольшая, но агрессивная команда, которая быстро покажет, что технология работает.
Когда я начал работать над Soli, разные люди говорили мне, что это никогда не будет работать. Я и сам не был уверен. У людей в целом было две реакции. Первая: «это сумасшедшая идея и она работать не будет», и вторая: «это сумасшедшая идея, работать не будет, но попробовать интересно». Сейчас я работаю с теми людьми, которые не боятся этих вызовов, наоборот, препятствия являются для них стимулятором, таких людей сложно найти. С этой командой мы построили первый прототип Soli. Только после того, как мы создали первый чип, отношение окружающих стало меняться. Мы стали получать больше поддержки, больше людей стали нас слушать. Это нормальная динамика, ничего в этом плохого нет, надо к этому привыкнуть.
Что умел первый прототип?
Он ничего не умел. Он показал, что мы можем сделать радар, который работает на короткой дистанции, а его софт позволяет распознавать и видеть какие-то движения. Потом мы стали экспериментировать с возможностями радара. Меня всегда интересовали мелкие жесты, например, пальцами. Исследовали возможность распознавания больших объектов, движения рук, распознавание разных материалов. Это была такая креативная работа, довольно увлекательная.
Когда мы в первый раз продемонстрировали технологию на конференции Google I/O, она произвела большой фурор — наше видео собрало несколько миллионов просмотров, было много запросов от прессы.
Что вы делали после этого?
Когда появляется новая технология, важно понять, какие чувства она вызывает у человека. В любой технологии есть эмоциональная составляющая, поэтому важен брендинг, то, как ты о ней говоришь, как ты о ней думаешь. Если вы делаете буровые установки, чтобы качать нефть, то чувства не нужны. А если вы продаете продукт обычным пользователям, им нужно, чтобы они чувствовали себя хорошо. Когда мы поняли, что есть возможность сделать что-то интересное, то стали более агрессивно работать с командами внутри Google и внешними клиентами, и придумывать, как технология может быть использована и как о ней нужно говорить.
Какими например?
У нас была коллаборация с LG — мы создали «умные» часы. Но изначально мы хотели, чтобы то, что придумано в Google, компания сама использовала.
Что LG делает сейчас с «умными» часами?
Это был прототип, продукт мы не сделали. Мы достаточно близко работали с LG: показали, что можно установить радар в часах. Но потребительская электроника — это сложная область. До сих пор носимые устройства, «умные» часы не распространены. Этот сегмент растет, кому-то они нравятся, кому-то нет, но до сих пор это небольшая область. Доминирующее влияние здесь у Apple — они подхватили огромный кусок рынка «умных» часов.
Поэтому зачастую компании занимают консервативную позицию. В нашей ситуации с LG они были более консервативные и решили подождать. Очень трудно перенести исследовательскую работу в продукт, для этого нужно огромное количество денег. Любой компании, независимо от того, насколько она богата, необходим фокус. Если нет этого фокуса, ты ничего не добьешься. И чтобы делать «умные» часы, нужно огромное количество усилий. Часы LG остались на уровне прототипа, они работают, мы их постоянно показываем. Я думаю, рано или поздно мы вернемся к этому продукту.
В каких-то еще продуктах используется эта технология?
Я, к сожалению, не могу говорить на эту тему. Мы считаем, что это одна из фундаментальных технологий для взаимодействия людей и машин, и она должна найти более широкое применение за пределами мобильных телефонов.
Возможности у нее огромные. Я думаю, у нас скоро появятся всевозможные конкуренты, и я это приветствую. Тот радар, который мы встроили в телефон, может работать на расстоянии до семи метров. У нас есть огромный лист идей его применения: умные города, индустриальные приложения, медицинские приложения, компьютерные игры, носимые устройства. Вопрос только в том, чем заниматься. Не нужно распыляться, но и над одним направлением тоже работать опасно — это как ставить все деньги на одну лошадь, можно легко проиграть. Мы постоянно работаем над несколькими приложениями. Когда мы работали над Pixel 4, то пришлось только на нем сфокусироваться и больше ничего и не делать. Но сейчас мы опять начинаем смотреть, где еще технология может использоваться.
Над какими еще проектами вы сейчас работаете в ATAP?
У меня два больших проекта: Soli и Jacquard.
Вы выпустили с Levi’s «умную» куртку со встроенным устройством Jacquard, которая понимает команды владельца.
Это не только куртка, мы сделали платформу Jacquard для производителей одежды, обуви и аксессуаров. Платформа позволяет легко добавить цифровые функции в их продукты. Мы выпустили два продукта — куртку Levi’s и рюкзак Yves Saint Laurent, который может распознавать жесты и синхронизируется со смартфоном. В ближайшие шесть месяцев мы должны выпустить еще несколько продуктов с использованием этой технологии, пока не могу сказать каких.
Это два главных для меня направления, внутри каждого из которых огромное количество поднаправлений. Использование Soli в телефоне, наверно, будет очень сильно отличаться от использования Soli в «умных» городах, к примеру. Soli — это такая большая шапка, а под ней огромное количество проектов, над которыми мы работаем.
СМИ писали о том, что Pixel 4 по ошибке распознавал людей с закрытыми глазами, но потом этот баг исправили. Вам приходится дорабатывать технологию?
Soli к этому отношения не имела. Само распознавание производят камеры, а Soli является одной из дополнительных технологий, которая помогает распознаванию работать лучше. Как любой продукт, который находится на рынке, Pixel 4 необходимо поддерживать, исправлять недочеты, смотреть, что говорят пользователи, что им нравится, а что нет. В настоящий момент мы близко работаем в этом отношении с группой, которая отвечает за Pixel 4 в Google, но в основном мы пытаемся перенести эту тяжелую ношу поддержки на них.
Сколько Google тратит на финансирование лаборатории ATAP? В одном из интервью вы говорили, что это значительные средства.
Финансирование мы не раскрываем. Оно такое, что дает возможность делать прототипы на правдоподобном уровне. Одно дело, когда я приношу прототип сенсора, из которого торчат провода, а сам он размером со стол. Даже я бы сказал, «классно, но вы покажите мне такой прототип, который бы работал в часах, тогда будет разговор».
Невозможно кого-то убедить, показывая такой прототип. Особенно здесь, в Силиконовой долине, где все стали скептиками в последнее время. У нас вокруг все стали ушлые, и никого не удивишь таким прототипом, всем подавай более правдоподобный. Люди должны посмотреть на него и сказать: «да, верим тебе, Ваня». Soli сначала была размером с коробку, а потом появился чип. Только тогда восприятие людей сильно изменилось. Вот чтобы сделать именно чип, нужно много денег. Я давно заметил, что финансирование проектов зависит от того, хорошо ли финансируется сама компания. Если у компании хороший доход, то она будет вкладывать деньги в R&D. R&D для любой компании является страховкой: когда проклятые конкуренты до вас доберутся, вам будет чем ответить. Но эти проекты могут и не состояться, как может и не наступить страховой случай.
СМИ называют вас одним из главных визионеров Google. Чем еще вы занимаетесь на работе?
Визионером хочет быть каждый, потому что это достаточно непыльная работа. Визионерство занимает, возможно, 15% моей деятельности, все остальное — организаторская работа. Любое визионерство — это две компоненты. Одна из них направляющая, когда ты должен показать, куда идти, другая — организующая.
Необходимо, чтобы люди поверили в твое направление и не стали его менять. Особенно здесь, в Силиконовой долине: все талантливые и гениальные, с огромным количеством энергии, которая уже через пять минут может пойти в другом направлении. Нужно направлять людей, прописывать бюджеты, объяснять начальству, что твоя работа важная, а подчиненным — что их вклад весомый. Вы нанимаете талантливых людей, и, с одной стороны, они делают очень хорошую работу, а с другой — управлять талантливыми людьми очень сложно, потому что у них есть свои идеи, свое видение. Можно нанять менее талантливых людей, которые будут делать то, что вы им скажете, но их работа будет довольно посредственной, ничего удивительного они не сделают. Тут нужен баланс.
Если в команде будут одни визионеры и талантливые люди, то будет хаос, а если только послушные сотрудники, то будет довольно посредственный результат.
Поэтому важно создать команду, в которой будут организованные, быстрые и ответственные люди, а также те, у кого есть инициатива и которые могут думать out of the box. И менеджмент такой группы — тяжелая работа, к которой я не был готов. Мне пришлось учиться и буквально на ходу завязывать шнурки.
Вам пришлось учиться быть начальником?
Мне не нравится слово «начальник». Лидером! Это вопрос лидерства: можно ли повести за собой людей, не силой, принуждением и зарплатами, а именно верой в идею. Они должны поверить в то, что они делают что-то по-настоящему новое, революционное и важное для компании и мира. Сейчас мир настолько изменился, что людям недостаточно создать технологию, которая позволит просто «срубить бабла». Они должны видеть, что технология позволит поднять нас как человечество на новый уровень.