Активный агент: почему «вторые пилоты» — лишь шаг на пути к дальнейшей эволюции ИИ

Андрей Себрант Автор

Фото Universal Images Group via Getty Images

Stub — Фото Universal Images Group via Getty Images

Примерно год назад во многих традиционных IT-продуктах стали появляться встроенные ИИ-помощники, которых нередко называли copilots, «вторыми пилотами». Первоначально этот термин начал использовать Microsoft в своих продуктах, текстах и выступлениях: copilots появились внутри приложений Windows 365, в OneNote, в GitHub и т. д. Термин прижился, его стали использовать, например, в продуктах Salesforce или Moveworks. У некоторых наблюдателей возникла иллюзия, что ИИ сводится к собственно генеративным нейросетям и встроенным в существующие IT-продукты вторым пилотам на основе все тех же генеративных моделей. О том, почему это не так, рассуждает директор по стратегическому маркетингу «Яндекса» Андрей Себрант

Среди крупных разработчиков ИИ сложился консенсус, что «вторые пилоты» — лишь первый, простейший и не самый трансформативный шаг. Был предложен краткосрочный прогноз, в котором вводилась временная последовательность «эра вторых пилотов — эра автономных агентов, эра кооперирующихся агентов». Именно тогда родилась броская фраза: «Скоро у нас будут стартапы–«единороги», где из людей — один основатель».

Однако на практике агентов в работе никто продемонстрировать не мог, идея не привлекла особого внимания широкой публики. Зато почти весь год всерьез обсуждалось, подчас с изумлением, на что выделяются миллиарды долларов, и как вообще какие-то сгенерированные тексты, картинки или видео могут поменять всерьез что-то вне креативных индустрий. Если сводить развитие ИИ к гонке генеративных моделей, которая еженедельно создавала поток новостей для СМИ, то вопрос об ограниченных возможностях, пусть даже мультимодального ИИ, вполне имел смысл: сами модели и вторые пилоты на их основе ведут себя сугубо реактивно, что-то генерят в ответ на промт (текстовое описание). Но без проактивных действий, основанных на самостоятельно принятых решениях, в реальном мире добиться можно немногого.

Материал по теме

Начавшийся год показал, что время на упомянутой выше шкале эпох развития ИИ измеряется не в годах, а в месяцах: эра автономных агентов — не отдаленное будущее, она, оказывается, уже пришла. Формально это доказал запущенный в конце января законодателем ИИ-мод (OpenAI) Оператор, описанный лаконично как Computer-Using Agent. Пока ранний доступ к нему открыт только для исследователей. Его создатели подчеркивают, что Оператор не очередная модель, а самостоятельный сложный продукт на основе способностей моделей понимать мультимодальный контекст и рассуждать. Обучен он на примерах современных графических интерфейсов, с которыми мы сейчас ежедневно работаем в интернете. Если ему поставить задачу, в принципе решаемую человеком, которому выдали компьютер с интернетом и браузером, то Оператор декомпозирует ее до уровня подзадач, решаемых с помощью определенных сайтов, найдет эти сайты, активно поработает с ними так же, как работали бы мы (включая работу с меню, заполнение форм, клики по ссылкам и кнопочкам и т. д.), и в итоге получит требуемый результат (или расскажет, почему не получил).

OpenAI совершенно не одинока в своей уверенности в возможностях агентов. Заголовок статьи «На фоне ИИ-агентов ChatGPT скоро покажется простеньким калькулятором», конечно, несколько преувеличивает, как принято у современных заголовков, но суть дела передает довольно точно. IT-директор Goldman Sachs Марко Ардженти уверенно прогнозирует, что в бизнесе в наступившем году начнут возникать гибридные команды, среди сотрудников которых, наряду с людьми, будут автономные агенты. Ему вторит CEO Salesforce Марк Бениофф, рассказывающий, что успехи во внедрении автономных агентов в его компании скажутся на темпах найма разработчиков и, возможно, его приостановке.

Все эти, еще недавно считавшиеся крамольными высказывания руководителей бизнеса о неизбежно сильном и скором влиянии ИИ на рынок труда, на глазах становятся нормой, что некоторых комментаторов откровенно бесит. Они пытаются убедить, что, с одной стороны, агенты в действительности лишены агентности и являются лишь инструментами уровня пишущей машинки (и здесь им подпевают философы), а с другой — что бизнес в любом случае должен думать о сохранении рабочих мест, а не об эффективности. Обе мысли выглядят, как минимум, удивительными.

Материал по теме

Оператор от OpenAI и аналогичные продукты от других компаний работают пока сугубо на цифровой стороне мира, приготовить чашку кофе на незнакомой кухне в соответствии с тестом Возняка они еще не способны. Но не зря на крупнейших конференциях CEO Nvidia Дженсен Хуанг выступает на фоне все большего количества уже реально выпускаемых в мире человекоподобных роботов и не устает напоминать, что главная задача робототехники — обеспечить ИИ физическим телом. В нынешних условиях это следует понимать в том числе и как задачу дать тела автономным агентам, чтобы их автономность в решении задач не ограничивалась цифровой стороной нашего мира. И решение этой задачи тоже куда ближе, чем многим кажется.

Мнение редакции может не совпадать с точкой зрения автора

Материал по теме