Google представила Veo 3 — нейросеть, которая генерирует видео сразу со звуком
20 мая Google выпустила ИИ-модель Veo 3 для генерации видео по текстовому описанию.
Ее представили на конференции Google I/O вместе с ИИ-редактором Flow. Главное отличие от аналогов вроде Runway или Sora — ролики генерируются сразу с подходящим аудио. Расскажу подробнее.
Модель Veo 3 доступна в приложении Flow. Это редактор, который объединяет Veo 3 с текстовой нейросетью Google Gemini и моделью для создания изображений Imagen 4. Flow похож на Sora от OpenAI.
Бесплатный курс Учебника Т—Ж «Как упростить жизнь с помощью нейросетей»
Ролик генерируется по текстовому запросу. Все промпты сохраняются в редакторе, с ними можно свободно экспериментировать. Например, в запросе можно задать описание сцены и стиль съемки, а затем развить сюжет, добавить или убрать персонажей или объекты.
Аудио генерируется одновременно с видео. Veo 3 самостоятельно создает подходящие под ролик фоновые шумы и звуки окружения, а также диалоги. При желании можно указать в описании сцены, какая музыка должна играть или с какими интонациями будут общаться персонажи.
Деморолик со сгенерированным диалогом
Допрос утки
Виолончелистка
Можно управлять «камерой». Для этого нужно указать в текстовом запросе движение «оператора». Например, задать плавный переход плана с общего на портретный или же изменить угол «камеры» во время диалога.
У Veo 3 есть защита от дипфейков. Google утверждает, что все видео, созданные Veo 3, помечаются невидимым водяным знаком SynthID.
Veo 3 доступна только платно. Для использования ИИ-модели потребуется новая подписка Google AI Ultra за 250 $ (20 078 ₽) в месяц.
Короткометражка Freelancers, полностью созданная в Flow с помощью Veo 3
Источник: t-j.ru