Почему Sora — не шаг, а гигантский скачок
Примерно месяц назад Google анонсировал запуск нейросети Lumiere, которая умеет генерировать 5-секундные ролики с разрешением 512x512 пикселей. И теперь OpenAI сделала, казалось бы, невозможное — создала генеративную модель Sora с реалистичными минутными роликами.
OpenAI обучал модель на видеороликах в оригинальном разрешении, как FullHD (1920x1080), а не на коротких видео с разрешением 512х512, как это было принято. По этой причине Sora может создавать и вертикальные, и горизонтальные видео, а также уходит от привычных квадратных генеративных роликов.
Также успех OpenAI в том, что они разработали нейросеть на основе подхода, аналогичного DALL-E 3 (третье поколение нейросети Dall-E от Open AI, конкурента Midjourney и Stable Diffusion, позволяет генерировать картинки в разных стилях. — Forbes). Сначала они обучают отдельную модель для написания короткого, но точного описания видео. Потом с помощью GPT-4V (функция ChatGPT, с помощью которой нейросеть распознает изображения и учитывает их при ответе. — Forbes) создают детализированные описания, получая большое количество качественных и вариативных описаний видео для обучения Sora.
Кроме того, архитектура Sora позволяет не просто генерировать отдельные фрагменты видео, но и соединять их в единое целое. Это открывает возможности для создания длинных и связных видеороликов, ранее недоступных для AI-генерации. В итоге мы получаем реалистичные видео высокого качества до одной минуты.
Страху нет
С появлением такой мощной технологии, как Sora, конечно же, возникают риски злоупотребления. Даже к текущим генераторам картинок есть много вопросов касательно их неправомерного использования — генерации фейкового и запрещенного контента. Например, так было с Midjourney, когда люди стали генерировать реалистичные изображения с Дональдом Трампом или папой Франциском. С видео все выходит на совершенно новый уровень, ведь теперь можно сгенерировать любой инфоповод и подкрепить его видео-пруфом (фейком). Но мы видим, что OpenAI понимает это и принимает меры для защиты от потенциальных рисков. Так, согласно информации на сайте компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.
Более того, в AI research community активно ведутся работы по маркировке генеративного контента, и возможно, в скором времени в каждом браузере будут встроенные generative-AI detectors. Важную роль играет и просветительская работа, ведь именно люди создают видео, а не сама AL/ML-модель. Нужно научиться понимать новые технологии и уметь ими пользоваться, а не бояться их.
Кого ждет perestroika
Без сомнений, Sora окажет заметное влияние на индустрию видеопродакшена. Например, можно будет в короткие сроки создать качественные рекламные ролики (до минуты). Но важно понимать, что в ближайшей перспективе нейросеть не сможет полностью заменить профессиональные видеостудии и креаторов — на данном этапе Sora не обучена создавать, например, фильмы и подобный качественный и долгий контент.
Как это было ранее с генерацией картинок и текстов, видеоконтента сейчас станет больше, а его качество в среднем ухудшится. Но те люди, которые научатся использовать Sora профессионально, останутся востребованными в индустрии.
Что касается стартапов, то Sora наглядно показала — генерировать реалистичные видео более чем возможно. Если начнут появляться text-to-video проекты, которые захотят занять прибыльную нишу, это не вызовет удивления. Но, как это часто бывает, успех вряд ли будет долгим. OpenAI в любой момент может анонсировать новые фичи, которых ранее не было в Sora, и таким образом снова повысить планку для конкурентов.
Не только в рекламе
История AI-прорывов показывает, что любая новая технология становится общедоступной в open-source в следующие полтора года после запуска: сначала большие игроки рынка начнут активно пользоваться Sora (как это было с DALL-E и ChatGPT), а потом уже и все остальные.
Например, Sora предлагает безграничные возможности для маркетинга. Возможность создавать персонализированный и высококачественный видеоконтент способна радикально изменить подходы к рекламе и контент-маркетингу — генеративная реклама может полностью захватить рынок, в том числе и YouTube.
Sora не только задает новые стандарты качества видеопроизводства, но и меняет подходы к взаимодействию с аудиторией. У OpenAI получилось продемонстрировать потенциал развития искусственного интеллекта, и, возможно, на горизонте скоро появятся и другие технологические прорывы, которые нас так же удивят.
Мнение редакции может не совпадать с точкой зрения автора