Инструмент мечты или экзистенциальная угроза: сможет ли нейросеть заменить художника
Китайский современный художник Ай Вэйвэй — один из культовых деятелей мира искусства. Он возглавлял рейтинг самых влиятельных персон арт-мира по версии журнала ArtReview в 2011 году, его работы неоднократно экспонировались в самых престижных галереях и крупнейших выставках мира (в галерее Tate Modern в Лондоне, на выставке Documenta в Касселе и пр.). Сам художник не раз иронично замечал, что его дело — идея, а воплощают ее в произведения, которые становятся знаменитыми, совершенно другие люди, чьи имена никому не известны. Ну и, действительно, если работа состоит из 100 000 000 (здесь нет лишнего нолика!) сделанных из фарфора и вручную раскрашенных семян подсолнечника, рассыпанных толстым слоем по полу самого большого зала в лондонской Tate Modern, не обойтись без тех 1600 рабочих, кто десятки месяцев эти семечки изготавливал. Впрочем, Ай Вэйвэй не первый превращает результаты труда безымянных других в авторские произведения искусства силой своей мысли и фантазии: знаменитый «Фонтан» (на самом деле писсуар из магазина) Марселя Дюшана еще в начале прошлого века привел к возникновению целого направления в искусстве с говорящим названием ready-made.
Эта историческая справка полезна для понимания того, что прямо сейчас происходит в медиаискусстве, особенно в последние несколько месяцев. В происходящем активно замешаны не так давно появившиеся мощнейшие генеративные нейронные сети, способные по иногда весьма лаконичному словесному описанию создать большое, сложное и, при желании управляющего этим процессом автора, детальнейшее изображение.
Наиболее известна благодаря огромному числу публикаций ИИ-система DALL-E 2, созданная специалистами из OpenAI в 2022-м. Уже предыдущая ее версия, запущенная год назад, вызвала у многих опасения: DALL-E создавала вполне фотореалистические изображения никогда не происходивших событий. Конечно, Photoshop существует давно и стал именем нарицательным, но работа с генеративной сетью резко снижает барьер входа для создания фейков. Чтобы получить с помощью DALL-E качественный результат, человеку не надо годами оттачивать свое мастерство, а потом много часов возиться с изображением для достижения нужного результата. Именно поэтому доступ к DALL-E никогда не был полностью открыт широкой публике, а в DALL-E 2 изначально были встроены многочисленные ограничения (не позволяющие, например, использовать образы реальных политиков или ограничивающие описание жестокостей в тексте для генерации изображения).
Пару месяцев назад некоторую тревогу среди дизайнеров вызвала обложка глянцевого журнала Cosmopoliten, созданная с помощью DALL-E 2 — в рекламных целях было объявлено, что на ее создание у алгоритма ушло 20 секунд. Технически это так и было — генерация итоговой картинки заняла у нейросети те самые секунды, но вот процесс поиска правильной идеи и композиции и последующее совершенствование картинки заняли у дизайнера много часов (впрочем, у нее это был первый опыт работы с генеративной сетью, так что скорость обучения тоже впечатляет).
Понятно, что в художественном сообществе возникли страхи, и кое-кто счел DALL-E 2 экзистенциальной угрозой. В отличие от ранних произведений генеративных сетей, выглядевших как какие-то абстрактные цифровые фантазии, теперь речь пошла о качественно выполненной заказной коммерческой графике.
Впрочем, более уверенные в себе творцы скорее радовались, чем опасались, — им дали новый инструмент, и возможности его (в том числе в комбинации со старыми) завораживают. Они, как и упомянутый в начале заметки Ай Вэйвэй, уверены: художника делают художником замысел и идея, а воплощать их в произведение могут хоть тысячи китайских ремесленников, хоть нейросеть.
DALL-E 2 не уникальна: аналогичную, хотя несколько менее раскрученную и потому не столь бурно обсуждаемую систему создал и Google — она называется Imagen. Ее создатели уверяют, что при слепом тестировании людям больше нравились картинки, сгенерированные именно Imagen, но это скорее вкусовщина: важнее, что технология создания таких генеративных сетей не уникальна.
Однако самое интересное произошло летом этого года, когда мировое сообщество медиахудожников всколыхнул новый проект под названием Midjourney, который предлагал почти тот же сервис, что и DALL-E или Imagen, но с упором не на фотореалистичность, а именно на художественность и фантазийность изображения (при очень высоком и управляемом качестве картинки).
Недавно опубликовано интервью с Дэвидом Гольцем, гендиректором компании, создавшей Midjourney — «движок для воображения», как он называет свой продукт. Самая важная деталь в его рассказе — это число сотрудников: новый сервис, с первых дней составивший конкуренцию продуктам больших технологических компаний и завоевавший любовь множества художников и просто любителей по всему миру, создан командой из 10 человек. Само наличие такого стартапа демонстрирует уровень зрелости и доступности технологий, позволяющих создавать генеративную графику вполне профессионального качества.
Первая ласточка в виде упомянутой выше обложки Cosmopolitan весны, как известно, не делает, но вот появление Midjourney, похоже, все-таки свидетельствует о смене сезона в области применения сгенерированных нейросетями изображений в широком спектре областей — от медиаискусства до рекламы и издательского дела. Люди в этих областях без работы не останутся, но вот учиться им придется быстро — слишком уж мощный и универсальный новый инструмент появился на рынке. А для нас, зрителей, начинается самое интересное — тем более что гонка еще только начинается: на сцену на днях вышел Apple с системой генерации по описанию не просто высококачественной плоской картинки, а полноценной 3D-сцены.
Мнение редакции может не совпадать с точкой зрения автора