Veo 3.1: как писать промпты, которые модель понимает
Google · Обновлено:
Veo 3.1 — обновлённая видео-модель Google DeepMind с улучшенным следованием промпту, нативным 1080p, вертикальным форматом 9:16 и режимом image-to-video. Наследует генерацию аудио от Veo 3: диалоги, фон, SFX, музыка. Лимит промпта вырос до 2000 символов, длительность — до нескольких минут в расширенном режиме.
Что нового в Veo 3.1
Veo 3.1 — это пять конкретных апгрейдов поверх Veo 3. Первое: улучшенное следование промпту (Prompt Adherence) — модель точнее воспроизводит описания, меньше додумывает. Второе: нативная поддержка вертикального 9:16 для TikTok, Reels, Shorts — больше не нужно обрезать в постобработке. Третье: image-to-video — модель анимирует стартовое изображение, описывая в промпте движение, а не первый кадр.
Четвёртое: камерные пресеты — встроенные предустановки движения камеры (platform-specific), которые работают как дополнение к текстовому описанию. Пятое: более длинные клипы по сравнению с 8-секундным лимитом Veo 3. Базовое разрешение Veo 3.1 — до 1080p; варианты Fast и Fast Relax работают на 720p с большей скоростью и меньшей стоимостью. Лимит промпта расширен до ~2000 символов.
- До 1080p (Veo 3.1), 720p (Fast/Fast Relax)
- Нативно 9:16 — TikTok, Reels, Shorts без обрезки
- Image-to-Video: анимация стартового изображения
- Камерные пресеты + расширенная длительность
- Лимит промпта ~2000 символов, аудио наследуется от Veo 3
Структура промпта
Оптимальный порядок: [Subject + Appearance] + [Context/Scene] + [Action] + [Camera Movement/Composition] + [Style/Mood] + [Lighting] + [Dialogue: text] + [Audio/Ambiance] + [(no subtitles!)].
Veo 3.1 полностью наследует логику Veo 3 в отношении аудио: блок звука обязателен, диалоги через двоеточие, добавлять `(no subtitles!)` в конец. Из-за более строгого следования промпту тег работает надёжнее, чем в Veo 3.
Для сложных сцен используй структурированный промпт с явными блоками:
Scene: A busy cafe in Paris, morning light streaming through large windows. Character: A young woman with auburn hair, wearing a cream sweater. Action: She lifts a cup of coffee, takes a sip, looks out the window. Camera: Slow dolly-in from medium shot to close-up. Audio: Ambient cafe sounds, clinking cups, soft jazz piano. Mood: Warm, nostalgic, golden hour tones. (no subtitles!)
Модель читает эту структуру лучше длинного абзаца.
Вертикальное видео и image-to-video
Для вертикального 9:16 формат выбирается в платформе (Google AI Studio, Vertex AI), не пишется в промпт. Промпт нужно адаптировать под портретную компоновку: больше крупных планов, портретная ориентация субъекта, минимум широких пейзажных кадров (они теряются в 9:16). Selfie-стиль особенно хорошо ложится в вертикальный формат.
Для image-to-video модель использует загруженное изображение как первый кадр, и промпт описывает движение и действие, а НЕ исходный кадр. Слабо: «A woman in a cafe drinking coffee» (это же показано на фото). Сильно: «The woman slowly lifts the cup to her lips and takes a sip. Camera: slow dolly-in to extreme close-up on her eyes. Background Sound: faint cafe chatter, distant espresso machine.». Описание начального состояния — лишний шум, фокус только на движении.
Диалоги, аудио, субтитры
Vео 3.1 полностью наследует аудио-возможности Veo 3. Диалоги через двоеточие, не в кавычках: `says: text` лучше, чем `says "text"` — кавычки провоцируют вшитые субтитры. Добавляй `(no subtitles!)` в конец промпта.
Длина диалога должна умещаться в длительность клипа: примерно 12-25 слов на 8-секундный отрезок. Слишком длинный диалог — модель говорит неестественно быстро. Слишком короткий — заполняет паузы AI-бормотанием. Для нескольких персонажей чётко указывай, кто говорит: «The woman in red says: ... The man with beard replies: ...».
Фоновые звуки прописывай явно — даже простое «ambient room tone» убирает риск «studio audience laughter». Для музыки указывай жанр и настроение: «a melancholic orchestral score swells», «upbeat electronic music with a driving beat», «no background music — just ambient room tone». Veo 3.1 точнее следует этим инструкциям, чем Veo 3.
Типичные ошибки
1. Описание начального кадра в Image-to-Video
В режиме image-to-video изображение УЖЕ задаёт первый кадр. Если в промпте писать «A woman sitting in a cafe drinking coffee» — это пустое повторение того, что и так показано на фото. Описывай только ДВИЖЕНИЕ: «She slowly lifts the cup, takes a sip, looks out the window. Camera: slow dolly-in». Фокус на динамике, не на статике.
2. Указание формата в тексте промпта
«Vertical video», «9:16», «1080p» в тексте промпта игнорируются — это параметры генерации, выставляемые на платформе или через API. В промпте они становятся мусором. Если нужен вертикальный формат — выбирай его в Google AI Studio / Vertex AI, и адаптируй композицию: «portrait close-up», «subject centered», крупные планы.
3. Горизонтальная компоновка при 9:16
Если выбран вертикальный формат, но в промпте «wide establishing shot of a city skyline» — субъект будет обрезан, кадр потеряет смысл. Под 9:16 адаптируй композицию: больше крупных планов, портретная ориентация людей, минимум широких пейзажей. Selfie-стиль особенно хорошо ложится в вертикальный формат.
4. Диалог в кавычках без «no subtitles»
Veo 3.1 наследует поведение Veo 3 в отношении субтитров: кавычки в диалогах провоцируют вшитые субтитры внизу кадра, часто с ошибками. Используй формат `says: text` через двоеточие и добавляй `(no subtitles!)`. В Veo 3.1 этот тег работает надёжнее, чем в Veo 3, благодаря улучшенному следованию промпту.
5. Перегенерация при одинаковом промпте
Veo 3.1 как и Veo 3 очень консистентен — идентичный промпт даёт схожий результат. Если нужны вариации, МЕНЯЙ промпт: добавь другой объектив, измени освещение, поменяй цветовую палитру или добавь деталь персонажа. Перегенерация без изменений — пустая трата токенов, реальные вариации получаются только через правку.
Примеры до/после
Пример 1
Было
a woman drinking coffee in a cafe
Стало
Scene: A busy cafe in Paris on a Saturday morning, golden light streaming through large arched windows. Character: A young woman with auburn hair tied in a low ponytail, wearing a cream cable-knit sweater, sits at a small marble table by the window. Action: She lifts a small espresso cup, takes a slow sip, then sets it down and looks out the window with a pensive expression. Camera: Slow dolly-in from medium shot to close-up on her face. Lighting: Warm golden hour light through the windows, soft fill from a nearby lamp. Mood: Warm, nostalgic, contemplative. Audio: Ambient cafe sounds — clinking cups, soft conversation in French, a jazz piano playing quietly in the background. (no subtitles!)
Структурированный промпт с явными блоками (Scene, Character, Action, Camera, Lighting, Mood, Audio). Veo 3.1 читает это лучше, чем длинный абзац.
Пример 2
Было
vertical video of a person in the city
Стало
Vertical 9:16 composition optimized for mobile. A young man with messy dark hair and a black hoodie, leaning against a graffiti-covered wall in a neon-lit Tokyo alley. He looks down at his phone, smiles, then glances up at the camera. Camera: portrait close-up, slight handheld micro-shake, slow push-in. Lighting: cyan neon key from screen-left, warm spill from a noodle shop sign on screen-right. Style: slightly grainy, film-like, cinematic vlog aesthetic. Mood: cool, urban, intimate. Background Sound: distant traffic hum, faint J-pop playing from a nearby shop, light rain on metal awnings. (no subtitles!)
Для 9:16: явно «portrait close-up», субъект расположен под вертикальный кадр, минимум широких планов. Формат выбирается на платформе, не пишется в промпт.
Пример 3
Было
animate this product photo of headphones
Стало
[Image-to-Video: starting frame is a product shot of matte-black wireless headphones on a white marble pedestal] The headphones begin a slow, smooth 360-degree rotation on the pedestal. Camera: slow continuous orbit around the headphones at eye level, shallow depth of field maintained throughout. Lighting: existing softbox key and rim light from the starting frame, with subtle highlight movement as the headphones rotate. Style: clean commercial photography. Mood: premium, refined. Audio: subtle electronic ambient tone, soft mechanical hum, a gentle chime at the start of rotation. (no subtitles!)
Image-to-Video: промпт описывает МОВИЖЕНИЕ, не повторяет содержимое исходного фото. Освещение наследуется от стартового кадра, в промпте — только динамика.