Чем Veo 3 отличается от Veo 2?

Главное отличие — нативная генерация аудио. Veo 2 выдавал немое видео, Veo 3 генерирует диалоги, фоновые звуки, SFX и музыку вместе с видеорядом. Это меняет логику промптинга: блок аудио теперь обязателен, иначе модель додумывает звук сама и часто неудачно. Базовое качество и разрешение остались на уровне 720p, формат 16:9.

Как избежать вшитых субтитров в кадре?

Три приёма работают вместе. Пиши диалоги через двоеточие, не в кавычках: `says: hello` вместо `says "hello"`. Добавляй `(no subtitles!)` в конец промпта. Если субтитры всё равно появляются — повтори несколько раз: «No subtitles. No subtitles!». Кавычки — главный триггер субтитров, двоеточие модель воспринимает как реплику без визуального отображения.

Почему модель добавляет смех аудитории, которого я не просил?

Это типичный артефакт Veo 3, когда в сцене есть несколько персонажей, но фоновый звук не описан явно. Модель «помнит», что в видео с людьми обычно есть какой-то фон, и додумывает «studio audience laughter» как самый частый паттерн из тренировочных данных. Лечение — всегда явно прописывай Background Sound, даже один ритмический звук убирает проблему.

Можно ли писать диалоги на русском?

Технически да — Veo 3 произносит русские слова, но качество заметно ниже, чем на английском: возможны искажения произношения, странная интонация, проблемы с длинными словами. Для production-задач рекомендуется английский диалог. Если нужен русский — используй фонетическую запись сложных слов и тестируй на коротких фразах перед длинными сценами.

Какая длина диалога оптимальна для 8-секундного клипа?

Примерно 12-25 слов. Меньше — модель заполняет паузы AI-бормотанием. Больше — говорит неестественно быстро, без интонаций. Идеальный паттерн: короткая фраза-вступление, основная мысль, короткое завершение. Например: «So, here's the thing. Most startups fail in year two because they scale too fast. It's not the product, it's the timing.»

Поддерживается ли Opten для Veo 3?

Да, расширение Opten распознаёт Veo 3 на платформах Google AI Studio, Vertex AI, Replicate и Flow и оценивает промпты по структуре, описанной выше: проверяет наличие блока аудио, формат диалогов через двоеточие, тег «(no subtitles!)», описание фоновых звуков, разумную длину диалога. Одним кликом можно получить rewrite с правильной структурой.

Video

Veo 3: как писать промпты, которые модель понимает

Name: Google Veo 3
Brand: Google

Google · Обновлено: 19 мая 2026 г.

Veo 3 — первая модель Google DeepMind с нативной генерацией аудио вместе с видео: диалоги, фоновые звуки, музыка, SFX. Клипы ~8 секунд, разрешение 720p, формат 16:9. Промпт обязательно описывает звуковую составляющую, иначе модель додумает её сама и часто неудачно. Английский даёт самые стабильные результаты.

Что нового в Veo 3

Главное отличие Veo 3 от предыдущих версий — нативная генерация аудио. Каждое видео создаётся со звуком: диалоги персонажей, фоновые звуки окружения, звуковые эффекты привязанные к действиям, фоновая музыка под настроение. Это меняет логику промптинга: молчать о звуке нельзя — модель всё равно его сгенерирует, и часто не то, что нужно.

Другие характеристики: длительность около 8 секунд, базовое разрешение 720p (1280×720), формат 16:9, стандартный FPS. Лимит промпта около 1500 символов. Очень высокая консистентность: один и тот же промпт даёт почти идентичные результаты даже с разными seed — для вариаций нужно менять сам промпт, а не перегенерировать.

Нативная генерация аудио — диалоги, фон, SFX, музыка
Клипы ~8 секунд, разрешение 720p, формат 16:9
Лимит промпта ~1500 символов
Очень высокая консистентность — для вариаций меняй промпт
Платформы: Google AI Studio, Vertex AI, Replicate, Flow

Структура промпта

Оптимальный порядок: [Subject + Appearance] + [Context/Scene] + [Action] + [Camera Movement] + [Style/Mood] + [Lighting] + [Dialogue/Audio].

Ключевая особенность: блок аудио обязателен. Без него модель додумает звук случайно — самый частый артефакт это «studio audience laughter», смех аудитории как в ситкоме, который появляется в драматичных сценах с несколькими персонажами.

Пример сильного промпта: «A man in his 40s with short brown hair, wearing a blue jacket, sits at a podcast desk in a dimly lit studio. He leans into the microphone and says: My name is Ben, and today we're talking about why most startups fail in year two. Camera: medium close-up, static. Lighting: warm key from a desk lamp, cool rim from a monitor. Background Sound: faint room tone, soft electronic hum. (no subtitles!)»

Диалоги: двоеточие, не кавычки

Veo 3 поддерживает два подхода к диалогам:

Явный (explicit) — точный текст после двоеточия: «A guy says: My name is Ben». Используй для точного контроля произносимых слов.

Неявный (implicit) — описание того, что персонаж говорит: «A guy tells us his name». Используй, когда модель может сама придумать реплику.

Критично важно: пиши диалог через двоеточие, не в кавычках. `says: My name is Ben` работает лучше, чем `says "My name is Ben"` — кавычки провоцируют модель сгенерировать вшитые субтитры внизу кадра, часто с ошибками. Добавляй `(no subtitles!)` в конец промпта для надёжности. При нескольких персонажах чётко указывай, кто говорит: «The woman in pink says: ... The man with glasses replies: ...».

Фоновые звуки и музыка

Если в промпте есть персонажи, но не описан фон — Veo 3 заполнит тишину автоматически, и часто неуместно. Типичный артефакт: «studio audience laughter» в драматичной сцене, случайный saxophone в спокойной обстановке, шум аудитории как в ситкоме. Лечение — всегда явно описывай фоновые звуки:

«sounds of distant bands, noisy crowd, ambient background of a busy festival field» «ambient sounds of rain on windows, distant thunder, soft piano music» «faint room tone, soft electronic hum, ticking wall clock»

Для музыки указывай жанр, настроение и стиль: «a tense cinematic score plays in the background», «a cheerful upbeat pop melody», «a melancholic orchestral score swells». Даже простое «no background music, ambient room tone only» работает лучше тишины.

Типичные ошибки

1. Диалог в кавычках вместо двоеточия
`says "hello"` провоцирует модель сгенерировать вшитые субтитры внизу кадра — часто с ошибками в словах и плохой кириллицей. Используй формат `says: hello` через двоеточие и добавь `(no subtitles!)` в конце. Если субтитры всё равно появляются, повтори: «No subtitles. No subtitles!» — для надёжности.
2. Отсутствие описания фоновых звуков
Если в сцене есть персонажи, но фон не описан — Veo 3 додумает звук случайно. Самый частый артефакт: «studio audience laughter», смех аудитории как в ситкоме в любой сцене с несколькими людьми. Лечение — всегда явно прописывай Background Sound, даже простое «faint room tone, ambient hum» убирает проблему.
3. Слишком длинный или слишком короткий диалог
Диалог на 50 слов в 8-секундном клипе — модель говорит неестественно быстро, проглатывает паузы и интонации. Диалог из 1-2 слов — модель заполняет оставшееся время AI-бормотанием. Целься в 12-25 слов на 8 секунд, оставляй естественные паузы и эмоциональные акценты.
4. Перегенерация одного промпта вместо его изменения
Veo 3 очень консистентен — идентичный промпт даёт почти идентичный результат даже с разными seed. Если хочешь вариации, нужно МЕНЯТЬ промпт, а не перегенерировать. Добавь другой объектив, измени освещение, поменяй цветовую палитру — это даст реальные вариации. Перегенерация одного и того же текста — пустая трата токенов.
5. Попытка вертикального формата
Veo 3 нативно генерирует только 16:9 — горизонтальный формат. Указание «vertical video» или «9:16» в промпте игнорируется. Для вертикального контента используй Veo 3.1 (там 9:16 поддерживается нативно) или обрезай в постобработке. В промпте Veo 3 не указывай формат — это лишний шум.

Примеры до/после

Пример 1

Было

a man talking to camera about his startup

Стало

A man in his 40s with short brown hair and a closely trimmed beard, wearing a navy blue jacket over a grey t-shirt, sits at a podcast desk in a dimly lit studio. He leans toward the microphone and says: My name is Ben, and today we're talking about why most startups fail in year two. Camera: medium close-up, static, slight handheld micro-shake. Lighting: warm key from a desk lamp on screen-left, cool rim from a monitor behind. Mood: intimate, thoughtful. Background Sound: faint room tone, soft electronic hum from the equipment. (no subtitles!)

Детальный субъект для консистентности, диалог через двоеточие (не кавычки), явный фоновый звук, добавлено «(no subtitles!)».

Пример 2

Было

a woman walking through a market

Стало

A young woman with long auburn hair tied in a low ponytail, wearing a green linen dress and a straw hat, walks through a bustling outdoor farmers market on a sunny Saturday morning. She picks up an apple, examines it, and smiles. Camera: medium tracking shot following her from the side, slow steadicam motion. Lighting: golden hour natural sunlight, warm tones. Mood: warm, casual, observational. Background Sound: lively crowd chatter, distant vendor calls, faint acoustic guitar playing somewhere nearby, occasional bird song. No background music — just ambient market sounds.

Конкретный субъект, явное действие с глаголами, движение камеры, цветовая характеристика, обязательно прописан фоновый звук с уточнением «no background music».

Пример 3

Было

a selfie video of someone in nature

Стало

A selfie video of a young man with messy brown hair and a denim jacket, hiking along a misty mountain trail at dawn. He holds the camera at arm's length, arm clearly visible in frame, occasionally looking into the lens with an excited grin. Background: pine trees, low fog, soft mountain silhouettes. Lighting: soft diffused dawn light, cool blue palette with warm spill from his face. Style: slightly grainy, film-like, vlog aesthetic. He says: I can't believe how quiet it is up here. Background Sound: distant bird calls, soft wind through pine needles, the crunch of his footsteps on gravel. (no subtitles!)

Полная selfie-структура: видимая рука, естественные движения, реплика через двоеточие, явный звуковой фон с тремя слоями, «slightly grainy» против AI-чистоты.

Veo 3: как писать промпты, которые модель понимает

Что нового в Veo 3

Структура промпта

Диалоги: двоеточие, не кавычки

Фоновые звуки и музыка

Типичные ошибки

1. Диалог в кавычках вместо двоеточия

2. Отсутствие описания фоновых звуков

3. Слишком длинный или слишком короткий диалог

4. Перегенерация одного промпта вместо его изменения

5. Попытка вертикального формата

Примеры до/после

Частые вопросы

Похожие модели

Google Veo 3.1 (включает Veo 3.1 Fast и Veo 3.1 Fast Relax)

Google Veo (General)

Veed Fabric 1.0

Готов писать промпты для Google Veo 3 в один клик?