К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Sora неизбежна: каким может быть будущее видеотехнологий

Фото Jonathan Raa / NurPhoto via Getty Images
Фото Jonathan Raa / NurPhoto via Getty Images
Известная во всем мире своим чат-ботом ChatGPT компания OpenAI представила 15 февраля новую генеративную модель искусственного интеллекта под названием Sora. Она позволяет генерировать по текстовому описанию видеоролики, реалистичность которых изумила наблюдателей. Появление такого инструмента породило еще больше опасений насчет развития дипфейков, а также того, существование каких профессий Sora может поставить под угрозу уже сейчас. Руководитель лаборатории научных исследований искусственного интеллекта Tinkoff Research Сергей Колесников размышляет о том, как OpenAI удалось создать такую модель, где ее можно использовать и почему риски ее использования могут быть преувеличены

Почему Sora — не шаг, а гигантский скачок

Примерно месяц назад Google анонсировал запуск нейросети Lumiere, которая умеет генерировать 5-секундные ролики с разрешением 512x512 пикселей. И теперь OpenAI сделала, казалось бы, невозможное — создала генеративную модель Sora с реалистичными минутными роликами.

OpenAI обучал модель на видеороликах в оригинальном разрешении, как FullHD (1920x1080), а не на коротких видео с разрешением 512х512, как это было принято. По этой причине Sora может создавать и вертикальные, и горизонтальные видео, а также уходит от привычных квадратных генеративных роликов.

Также успех OpenAI в том, что они разработали нейросеть на основе подхода, аналогичного DALL-E 3 (третье поколение нейросети Dall-E от Open AI, конкурента Midjourney и Stable Diffusion, позволяет генерировать картинки в разных стилях. — Forbes). Сначала они обучают отдельную модель для написания короткого, но точного описания видео. Потом с помощью GPT-4V (функция ChatGPT, с помощью которой нейросеть распознает изображения и учитывает их при ответе. — Forbes) создают детализированные описания, получая большое количество качественных и вариативных описаний видео для обучения Sora.

 

Кроме того, архитектура Sora позволяет не просто генерировать отдельные фрагменты видео, но и соединять их в единое целое. Это открывает возможности для создания длинных и связных видеороликов, ранее недоступных для AI-генерации. В итоге мы получаем реалистичные видео высокого качества до одной минуты.

Страху нет

С появлением такой мощной технологии, как Sora, конечно же, возникают риски злоупотребления. Даже к текущим генераторам картинок есть много вопросов касательно их неправомерного использования — генерации фейкового и запрещенного контента. Например, так было с Midjourney, когда люди стали генерировать реалистичные изображения с Дональдом Трампом или папой Франциском. С видео все выходит на совершенно новый уровень, ведь теперь можно сгенерировать любой инфоповод и подкрепить его видео-пруфом (фейком). Но мы видим, что OpenAI понимает это и принимает меры для защиты от потенциальных рисков. Так, согласно информации на сайте компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.

 

Более того, в AI research community активно ведутся работы по маркировке генеративного контента, и возможно, в скором времени в каждом браузере будут встроенные generative-AI detectors. Важную роль играет и просветительская работа, ведь именно люди создают видео, а не сама AL/ML-модель. Нужно научиться понимать новые технологии и уметь ими пользоваться, а не бояться их.

Кого ждет perestroika

Без сомнений, Sora окажет заметное влияние на индустрию видеопродакшена. Например, можно будет в короткие сроки создать качественные рекламные ролики (до минуты). Но важно понимать, что в ближайшей перспективе нейросеть не сможет полностью заменить профессиональные видеостудии и креаторов — на данном этапе Sora не обучена создавать, например, фильмы и подобный качественный и долгий контент.

Как это было ранее с генерацией картинок и текстов, видеоконтента сейчас станет больше, а его качество в среднем ухудшится. Но те люди, которые научатся использовать Sora профессионально, останутся востребованными в индустрии.

 

Что касается стартапов, то Sora наглядно показала — генерировать реалистичные видео более чем возможно. Если начнут появляться text-to-video проекты, которые захотят занять прибыльную нишу, это не вызовет удивления. Но, как это часто бывает, успех вряд ли будет долгим. OpenAI в любой момент может анонсировать новые фичи, которых ранее не было в Sora, и таким образом снова повысить планку для конкурентов.

Не только в рекламе

История AI-прорывов показывает, что любая новая технология становится общедоступной в open-source в следующие полтора года после запуска: сначала большие игроки рынка начнут активно пользоваться Sora (как это было с DALL-E и ChatGPT), а потом уже и все остальные. 

Например, Sora предлагает безграничные возможности для маркетинга. Возможность создавать персонализированный и высококачественный видеоконтент способна радикально изменить подходы к рекламе и контент-маркетингу — генеративная реклама может полностью захватить рынок, в том числе и YouTube.

Sora не только задает новые стандарты качества видеопроизводства, но и меняет подходы к взаимодействию с аудиторией. У OpenAI получилось продемонстрировать потенциал развития искусственного интеллекта, и, возможно, на горизонте скоро появятся и другие технологические прорывы, которые нас так же удивят.

Мнение редакции может не совпадать с точкой зрения автора

 

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+