Veo 3: как писать промпты, которые модель понимает
Google · Обновлено:
Veo 3 — первая модель Google DeepMind с нативной генерацией аудио вместе с видео: диалоги, фоновые звуки, музыка, SFX. Клипы ~8 секунд, разрешение 720p, формат 16:9. Промпт обязательно описывает звуковую составляющую, иначе модель додумает её сама и часто неудачно. Английский даёт самые стабильные результаты.
Что нового в Veo 3
Главное отличие Veo 3 от предыдущих версий — нативная генерация аудио. Каждое видео создаётся со звуком: диалоги персонажей, фоновые звуки окружения, звуковые эффекты привязанные к действиям, фоновая музыка под настроение. Это меняет логику промптинга: молчать о звуке нельзя — модель всё равно его сгенерирует, и часто не то, что нужно.
Другие характеристики: длительность около 8 секунд, базовое разрешение 720p (1280×720), формат 16:9, стандартный FPS. Лимит промпта около 1500 символов. Очень высокая консистентность: один и тот же промпт даёт почти идентичные результаты даже с разными seed — для вариаций нужно менять сам промпт, а не перегенерировать.
- Нативная генерация аудио — диалоги, фон, SFX, музыка
- Клипы ~8 секунд, разрешение 720p, формат 16:9
- Лимит промпта ~1500 символов
- Очень высокая консистентность — для вариаций меняй промпт
- Платформы: Google AI Studio, Vertex AI, Replicate, Flow
Структура промпта
Оптимальный порядок: [Subject + Appearance] + [Context/Scene] + [Action] + [Camera Movement] + [Style/Mood] + [Lighting] + [Dialogue/Audio].
Ключевая особенность: блок аудио обязателен. Без него модель додумает звук случайно — самый частый артефакт это «studio audience laughter», смех аудитории как в ситкоме, который появляется в драматичных сценах с несколькими персонажами.
Пример сильного промпта: «A man in his 40s with short brown hair, wearing a blue jacket, sits at a podcast desk in a dimly lit studio. He leans into the microphone and says: My name is Ben, and today we're talking about why most startups fail in year two. Camera: medium close-up, static. Lighting: warm key from a desk lamp, cool rim from a monitor. Background Sound: faint room tone, soft electronic hum. (no subtitles!)»
Диалоги: двоеточие, не кавычки
Veo 3 поддерживает два подхода к диалогам:
Явный (explicit) — точный текст после двоеточия: «A guy says: My name is Ben». Используй для точного контроля произносимых слов.
Неявный (implicit) — описание того, что персонаж говорит: «A guy tells us his name». Используй, когда модель может сама придумать реплику.
Критично важно: пиши диалог через двоеточие, не в кавычках. `says: My name is Ben` работает лучше, чем `says "My name is Ben"` — кавычки провоцируют модель сгенерировать вшитые субтитры внизу кадра, часто с ошибками. Добавляй `(no subtitles!)` в конец промпта для надёжности. При нескольких персонажах чётко указывай, кто говорит: «The woman in pink says: ... The man with glasses replies: ...».
Фоновые звуки и музыка
Если в промпте есть персонажи, но не описан фон — Veo 3 заполнит тишину автоматически, и часто неуместно. Типичный артефакт: «studio audience laughter» в драматичной сцене, случайный saxophone в спокойной обстановке, шум аудитории как в ситкоме. Лечение — всегда явно описывай фоновые звуки:
«sounds of distant bands, noisy crowd, ambient background of a busy festival field» «ambient sounds of rain on windows, distant thunder, soft piano music» «faint room tone, soft electronic hum, ticking wall clock»
Для музыки указывай жанр, настроение и стиль: «a tense cinematic score plays in the background», «a cheerful upbeat pop melody», «a melancholic orchestral score swells». Даже простое «no background music, ambient room tone only» работает лучше тишины.
Типичные ошибки
1. Диалог в кавычках вместо двоеточия
`says "hello"` провоцирует модель сгенерировать вшитые субтитры внизу кадра — часто с ошибками в словах и плохой кириллицей. Используй формат `says: hello` через двоеточие и добавь `(no subtitles!)` в конце. Если субтитры всё равно появляются, повтори: «No subtitles. No subtitles!» — для надёжности.
2. Отсутствие описания фоновых звуков
Если в сцене есть персонажи, но фон не описан — Veo 3 додумает звук случайно. Самый частый артефакт: «studio audience laughter», смех аудитории как в ситкоме в любой сцене с несколькими людьми. Лечение — всегда явно прописывай Background Sound, даже простое «faint room tone, ambient hum» убирает проблему.
3. Слишком длинный или слишком короткий диалог
Диалог на 50 слов в 8-секундном клипе — модель говорит неестественно быстро, проглатывает паузы и интонации. Диалог из 1-2 слов — модель заполняет оставшееся время AI-бормотанием. Целься в 12-25 слов на 8 секунд, оставляй естественные паузы и эмоциональные акценты.
4. Перегенерация одного промпта вместо его изменения
Veo 3 очень консистентен — идентичный промпт даёт почти идентичный результат даже с разными seed. Если хочешь вариации, нужно МЕНЯТЬ промпт, а не перегенерировать. Добавь другой объектив, измени освещение, поменяй цветовую палитру — это даст реальные вариации. Перегенерация одного и того же текста — пустая трата токенов.
5. Попытка вертикального формата
Veo 3 нативно генерирует только 16:9 — горизонтальный формат. Указание «vertical video» или «9:16» в промпте игнорируется. Для вертикального контента используй Veo 3.1 (там 9:16 поддерживается нативно) или обрезай в постобработке. В промпте Veo 3 не указывай формат — это лишний шум.
Примеры до/после
Пример 1
Было
a man talking to camera about his startup
Стало
A man in his 40s with short brown hair and a closely trimmed beard, wearing a navy blue jacket over a grey t-shirt, sits at a podcast desk in a dimly lit studio. He leans toward the microphone and says: My name is Ben, and today we're talking about why most startups fail in year two. Camera: medium close-up, static, slight handheld micro-shake. Lighting: warm key from a desk lamp on screen-left, cool rim from a monitor behind. Mood: intimate, thoughtful. Background Sound: faint room tone, soft electronic hum from the equipment. (no subtitles!)
Детальный субъект для консистентности, диалог через двоеточие (не кавычки), явный фоновый звук, добавлено «(no subtitles!)».
Пример 2
Было
a woman walking through a market
Стало
A young woman with long auburn hair tied in a low ponytail, wearing a green linen dress and a straw hat, walks through a bustling outdoor farmers market on a sunny Saturday morning. She picks up an apple, examines it, and smiles. Camera: medium tracking shot following her from the side, slow steadicam motion. Lighting: golden hour natural sunlight, warm tones. Mood: warm, casual, observational. Background Sound: lively crowd chatter, distant vendor calls, faint acoustic guitar playing somewhere nearby, occasional bird song. No background music — just ambient market sounds.
Конкретный субъект, явное действие с глаголами, движение камеры, цветовая характеристика, обязательно прописан фоновый звук с уточнением «no background music».
Пример 3
Было
a selfie video of someone in nature
Стало
A selfie video of a young man with messy brown hair and a denim jacket, hiking along a misty mountain trail at dawn. He holds the camera at arm's length, arm clearly visible in frame, occasionally looking into the lens with an excited grin. Background: pine trees, low fog, soft mountain silhouettes. Lighting: soft diffused dawn light, cool blue palette with warm spill from his face. Style: slightly grainy, film-like, vlog aesthetic. He says: I can't believe how quiet it is up here. Background Sound: distant bird calls, soft wind through pine needles, the crunch of his footsteps on gravel. (no subtitles!)
Полная selfie-структура: видимая рука, естественные движения, реплика через двоеточие, явный звуковой фон с тремя слоями, «slightly grainy» против AI-чистоты.