Video

Veo 3.1: как писать промпты, которые модель понимает

Google · Обновлено:

Veo 3.1 — обновлённая видео-модель Google DeepMind с улучшенным следованием промпту, нативным 1080p, вертикальным форматом 9:16 и режимом image-to-video. Наследует генерацию аудио от Veo 3: диалоги, фон, SFX, музыка. Лимит промпта вырос до 2000 символов, длительность — до нескольких минут в расширенном режиме.

Что нового в Veo 3.1

Veo 3.1 — это пять конкретных апгрейдов поверх Veo 3. Первое: улучшенное следование промпту (Prompt Adherence) — модель точнее воспроизводит описания, меньше додумывает. Второе: нативная поддержка вертикального 9:16 для TikTok, Reels, Shorts — больше не нужно обрезать в постобработке. Третье: image-to-video — модель анимирует стартовое изображение, описывая в промпте движение, а не первый кадр.

Четвёртое: камерные пресеты — встроенные предустановки движения камеры (platform-specific), которые работают как дополнение к текстовому описанию. Пятое: более длинные клипы по сравнению с 8-секундным лимитом Veo 3. Базовое разрешение Veo 3.1 — до 1080p; варианты Fast и Fast Relax работают на 720p с большей скоростью и меньшей стоимостью. Лимит промпта расширен до ~2000 символов.

  • До 1080p (Veo 3.1), 720p (Fast/Fast Relax)
  • Нативно 9:16 — TikTok, Reels, Shorts без обрезки
  • Image-to-Video: анимация стартового изображения
  • Камерные пресеты + расширенная длительность
  • Лимит промпта ~2000 символов, аудио наследуется от Veo 3

Структура промпта

Оптимальный порядок: [Subject + Appearance] + [Context/Scene] + [Action] + [Camera Movement/Composition] + [Style/Mood] + [Lighting] + [Dialogue: text] + [Audio/Ambiance] + [(no subtitles!)].

Veo 3.1 полностью наследует логику Veo 3 в отношении аудио: блок звука обязателен, диалоги через двоеточие, добавлять `(no subtitles!)` в конец. Из-за более строгого следования промпту тег работает надёжнее, чем в Veo 3.

Для сложных сцен используй структурированный промпт с явными блоками:

Scene: A busy cafe in Paris, morning light streaming through large windows. Character: A young woman with auburn hair, wearing a cream sweater. Action: She lifts a cup of coffee, takes a sip, looks out the window. Camera: Slow dolly-in from medium shot to close-up. Audio: Ambient cafe sounds, clinking cups, soft jazz piano. Mood: Warm, nostalgic, golden hour tones. (no subtitles!)

Модель читает эту структуру лучше длинного абзаца.

Вертикальное видео и image-to-video

Для вертикального 9:16 формат выбирается в платформе (Google AI Studio, Vertex AI), не пишется в промпт. Промпт нужно адаптировать под портретную компоновку: больше крупных планов, портретная ориентация субъекта, минимум широких пейзажных кадров (они теряются в 9:16). Selfie-стиль особенно хорошо ложится в вертикальный формат.

Для image-to-video модель использует загруженное изображение как первый кадр, и промпт описывает движение и действие, а НЕ исходный кадр. Слабо: «A woman in a cafe drinking coffee» (это же показано на фото). Сильно: «The woman slowly lifts the cup to her lips and takes a sip. Camera: slow dolly-in to extreme close-up on her eyes. Background Sound: faint cafe chatter, distant espresso machine.». Описание начального состояния — лишний шум, фокус только на движении.

Диалоги, аудио, субтитры

Vео 3.1 полностью наследует аудио-возможности Veo 3. Диалоги через двоеточие, не в кавычках: `says: text` лучше, чем `says "text"` — кавычки провоцируют вшитые субтитры. Добавляй `(no subtitles!)` в конец промпта.

Длина диалога должна умещаться в длительность клипа: примерно 12-25 слов на 8-секундный отрезок. Слишком длинный диалог — модель говорит неестественно быстро. Слишком короткий — заполняет паузы AI-бормотанием. Для нескольких персонажей чётко указывай, кто говорит: «The woman in red says: ... The man with beard replies: ...».

Фоновые звуки прописывай явно — даже простое «ambient room tone» убирает риск «studio audience laughter». Для музыки указывай жанр и настроение: «a melancholic orchestral score swells», «upbeat electronic music with a driving beat», «no background music — just ambient room tone». Veo 3.1 точнее следует этим инструкциям, чем Veo 3.

Типичные ошибки

  1. 1. Описание начального кадра в Image-to-Video

    В режиме image-to-video изображение УЖЕ задаёт первый кадр. Если в промпте писать «A woman sitting in a cafe drinking coffee» — это пустое повторение того, что и так показано на фото. Описывай только ДВИЖЕНИЕ: «She slowly lifts the cup, takes a sip, looks out the window. Camera: slow dolly-in». Фокус на динамике, не на статике.

  2. 2. Указание формата в тексте промпта

    «Vertical video», «9:16», «1080p» в тексте промпта игнорируются — это параметры генерации, выставляемые на платформе или через API. В промпте они становятся мусором. Если нужен вертикальный формат — выбирай его в Google AI Studio / Vertex AI, и адаптируй композицию: «portrait close-up», «subject centered», крупные планы.

  3. 3. Горизонтальная компоновка при 9:16

    Если выбран вертикальный формат, но в промпте «wide establishing shot of a city skyline» — субъект будет обрезан, кадр потеряет смысл. Под 9:16 адаптируй композицию: больше крупных планов, портретная ориентация людей, минимум широких пейзажей. Selfie-стиль особенно хорошо ложится в вертикальный формат.

  4. 4. Диалог в кавычках без «no subtitles»

    Veo 3.1 наследует поведение Veo 3 в отношении субтитров: кавычки в диалогах провоцируют вшитые субтитры внизу кадра, часто с ошибками. Используй формат `says: text` через двоеточие и добавляй `(no subtitles!)`. В Veo 3.1 этот тег работает надёжнее, чем в Veo 3, благодаря улучшенному следованию промпту.

  5. 5. Перегенерация при одинаковом промпте

    Veo 3.1 как и Veo 3 очень консистентен — идентичный промпт даёт схожий результат. Если нужны вариации, МЕНЯЙ промпт: добавь другой объектив, измени освещение, поменяй цветовую палитру или добавь деталь персонажа. Перегенерация без изменений — пустая трата токенов, реальные вариации получаются только через правку.

Примеры до/после

Пример 1

Было

a woman drinking coffee in a cafe

Стало

Scene: A busy cafe in Paris on a Saturday morning, golden light streaming through large arched windows.
Character: A young woman with auburn hair tied in a low ponytail, wearing a cream cable-knit sweater, sits at a small marble table by the window.
Action: She lifts a small espresso cup, takes a slow sip, then sets it down and looks out the window with a pensive expression.
Camera: Slow dolly-in from medium shot to close-up on her face.
Lighting: Warm golden hour light through the windows, soft fill from a nearby lamp.
Mood: Warm, nostalgic, contemplative.
Audio: Ambient cafe sounds — clinking cups, soft conversation in French, a jazz piano playing quietly in the background.
(no subtitles!)

Структурированный промпт с явными блоками (Scene, Character, Action, Camera, Lighting, Mood, Audio). Veo 3.1 читает это лучше, чем длинный абзац.

Пример 2

Было

vertical video of a person in the city

Стало

Vertical 9:16 composition optimized for mobile. A young man with messy dark hair and a black hoodie, leaning against a graffiti-covered wall in a neon-lit Tokyo alley. He looks down at his phone, smiles, then glances up at the camera. Camera: portrait close-up, slight handheld micro-shake, slow push-in. Lighting: cyan neon key from screen-left, warm spill from a noodle shop sign on screen-right. Style: slightly grainy, film-like, cinematic vlog aesthetic. Mood: cool, urban, intimate. Background Sound: distant traffic hum, faint J-pop playing from a nearby shop, light rain on metal awnings. (no subtitles!)

Для 9:16: явно «portrait close-up», субъект расположен под вертикальный кадр, минимум широких планов. Формат выбирается на платформе, не пишется в промпт.

Пример 3

Было

animate this product photo of headphones

Стало

[Image-to-Video: starting frame is a product shot of matte-black wireless headphones on a white marble pedestal]

The headphones begin a slow, smooth 360-degree rotation on the pedestal. Camera: slow continuous orbit around the headphones at eye level, shallow depth of field maintained throughout. Lighting: existing softbox key and rim light from the starting frame, with subtle highlight movement as the headphones rotate. Style: clean commercial photography. Mood: premium, refined. Audio: subtle electronic ambient tone, soft mechanical hum, a gentle chime at the start of rotation. (no subtitles!)

Image-to-Video: промпт описывает МОВИЖЕНИЕ, не повторяет содержимое исходного фото. Освещение наследуется от стартового кадра, в промпте — только динамика.

Частые вопросы

Чем Veo 3.1 отличается от Veo 3?
Пять апгрейдов: улучшенное следование промпту (меньше додумывания), нативная поддержка вертикального 9:16, image-to-video режим, камерные пресеты, более длинные клипы. Базовое разрешение выросло до 1080p (против 720p в Veo 3). Аудио-возможности наследуются полностью — диалоги, фон, SFX, музыка. Лимит промпта расширен с ~1500 до ~2000 символов.
Какая разница между Veo 3.1, Fast и Fast Relax?
Veo 3.1 — максимальное качество на 1080p, стандартная скорость. Veo 3.1 Fast — 720p, заметно быстрее, для итераций и прототипирования. Veo 3.1 Fast Relax — 720p, ещё экономнее по стоимости, для массовой генерации и тестов. Логика промптинга идентична во всех трёх вариантах: одни и те же блоки структуры, одни и те же приёмы для аудио и диалогов.
Как сделать вертикальное видео для TikTok / Reels / Shorts?
Формат 9:16 выбирается на платформе (Google AI Studio или Vertex AI), не пишется в промпт. В промпте адаптируй композицию: больше крупных планов, портретная ориентация субъекта, явное «portrait close-up» или «vertical composition». Минимум широких пейзажных кадров — они теряются в вертикальном формате. Selfie-стиль особенно хорошо подходит.
Как использовать Image-to-Video режим?
Загружаешь стартовое изображение (продуктовый шот, иллюстрация, фото) и в промпте описываешь ТОЛЬКО движение — не повторяй содержимое исходного кадра. Фокус: что движется, куда движется камера, какие звуки появляются. Освещение наследуется от стартового кадра. Это идеально для оживления продуктовой фотографии и анимации статичных иллюстраций.
Можно ли писать диалоги на русском?
Технически да — Veo 3.1 произносит русские слова, но качество заметно ниже, чем на английском: возможны искажения произношения и интонации. Для production-задач рекомендуется английский. Если нужен русский диалог — используй фонетическую запись сложных слов и тестируй на коротких фразах перед длинными сценами. Veo 3.1 чуть точнее Veo 3 в неанглийских языках.
Какой оптимальный лимит длины промпта?
Рекомендуемый лимит — около 2000 символов. Это даёт пространство для детального описания персонажей, среды, действий, камеры, освещения, аудио и стиля без потери качества. Промпты длиннее 2000 символов начинают терять детали: модель не успевает обработать всё описание целиком. Для очень сложных сцен разбивай на структурированные блоки (Scene/Character/Action/Camera/Audio).
Поддерживается ли Opten для Veo 3.1?
Да, расширение Opten распознаёт Veo 3.1, Fast и Fast Relax на платформах Google AI Studio, Vertex AI и Flow и оценивает промпты по структуре, описанной выше: проверяет блок аудио, формат диалогов через двоеточие, тег «(no subtitles!)», адаптацию композиции под формат, корректную структуру image-to-video. Одним кликом можно получить rewrite.

Похожие модели

Готов писать промпты для Google Veo 3.1 (включает Veo 3.1 Fast и Veo 3.1 Fast Relax) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время