OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora
Компания OpenAl, создатель ChatGPT, представила свою новую разработку — модель ИИ, которая может генерировать текстовые подсказки в одноминутное видео. Она открыла доступ к новой программе под названием Sora для тестировщиков из числа специалистов по поискам уязвимостей и профессионалов визуального искусства
Компания OpenAI, создатель популярного чат-бота с искусственным интеллектом ChatGPT, сообщила о начале тестирования новой модели ИИ, которая преобразует в видео продолжительностью до одной минуты текстовое задание пользователя. Доступ к разработке она открыла с 15 февраля специалистам по поискам критических недостатков программного обеспечения и профессионалам в области визуализации, говорится в сообщении компании.
«Сегодня Sora становится доступной для сотрудников red teamers для оценки критических областей на предмет нанесения вреда или рисков. Мы также предоставляем доступ ряду художников-визуалистов, дизайнеров и кинематографистов, чтобы получить обратную связь о том, как продвинуть модель, чтобы она была наиболее полезной для творческих профессионалов», — говорится в сообщении OpenAI.
«Мы работаем с red teamers — экспертами в таких областях, как дезинформация, контент ненависти и предвзятость, — которые будут состязательно тестировать модель», — отметила компания. Она сообщила, что намерена разработать специальные инструменты для выявления сгенерированного видеоконтента, в том числе — если видео было сгенерировано Sora.
Компания заявила, что хотела бы как можно раньше «начать работать с людьми за пределами OpenAI и получать обратную связь от них, а также дать общественности представление о том, какие возможности искусственного интеллекта маячат на горизонте». В сообщении перечисляются возможности новой модели генеративного ИИ:
- Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объекта съемки и фона.
- Модель понимает не только то, что пользователь запросил в текстовом задании, но и то, как эти вещи существуют в реальном физическом мире.
- Она обладает глубоким пониманием языка, что позволяет ей точно интерпретировать текстовые подсказки и создавать привлекательных персонажей, выражающих яркие эмоции.
- Sora может создавать несколько кадров в рамках одного сгенерированного видео, которые точно передают персонажей и визуальный стиль.
Помимо создания видео на основе текстовых подсказок, Sora может анимировать неподвижное изображение, говорится в сообщении компании. Она также назвала недостатки разрабатываемой модели на текущем этапе. Так, она может испытывать трудности с точным моделированием физики в сложных сценах и не понимать конкретных причинно-следственных связей. Например, человек на видео может надкусить печенье, но впоследствии на нем не останется следов надкуса.
Модель также может путать пространственные детали, указанные в тексте пользователя. Например, левое и правое направления. Она может затрудняться с точным описанием событий, происходящих с течением времени, например следованием определенной траектории камеры.
30 ноября 2022 года состоялся запуск ChatGPT — чат-бота на основе языковой модели, разработанного компанией OpenAI. Новинка стала настоящим прорывом в области технологий искусственного интеллекта и была способна решать задачи из многих прикладных областей, отвечать на самые разнообразные вопросы, программировать, составлять электронные письма на заданные темы и т. д.
Уже к январю 2023 года количество пользователей ChatGPT достигло 100 млн, что сделало его самым быстрорастущим приложением в истории. Крупнейшим инвестором OpenAI является Microsoft, вложившая в стартап $13 млрд. После скандала с временной отставкой гендиректора компании Сэма Альтмана отношения двух компаний укрепились: уволивший топ-менеджера совет директоров самораспустился, а Microsoft получила кресло в новом совете.