Veo: как писать промпты, которые модель понимает
Google · Обновлено:
Google Veo — линейка video-моделей от DeepMind с клипами 5-8 секунд и базовым разрешением 720p. Промпт работает как описание для режиссёра: субъект, контекст, действие, камера, стиль и освещение. Английский даёт самые стабильные результаты. В семействе разные версии: Veo 1/2 без аудио, Veo 3+ с нативным звуком.
Что умеет Veo
Veo генерирует видео в формате 16:9 длительностью 5-8 секунд (точное значение зависит от версии модели). Базовое разрешение — 720p (1280×720), апскейл до 4K делается через сторонние инструменты постобработки. Рекомендуемый лимит промпта около 1500 символов: больше — модель начинает терять детали из конца описания.
Доступно на Google AI Studio, Vertex AI и Flow. Поддерживает два основных режима: Text-to-Video (генерация только из текста) и Image-to-Video (анимация стартового изображения, доступность зависит от версии и платформы). Аудио появляется только с версии 3 — Veo 1 и Veo 2 выдают немое видео. Вертикальный формат нативно не поддерживается в базовой линейке Veo, только через постобработку или специальные варианты (Veo 3.1).
- Клипы 5-8 секунд, формат 16:9, базовое разрешение 720p
- Лимит промпта ~1500 символов
- Text-to-Video и Image-to-Video режимы
- Аудио — только начиная с Veo 3
- Платформы: Google AI Studio, Vertex AI, Flow
Структура промпта
Оптимальный порядок: [Subject] + [Context/Scene] + [Action] + [Camera Movement] + [Style/Mood] + [Lighting/Ambiance] + [Audio (если поддерживается)].
Не обязательно использовать все элементы — состав зависит от типа видео. Чем конкретнее описание, тем лучше результат. Пиши так, как если бы ты описывал сцену режиссёру, который впервые видит сценарий.
Ключевой контраст: • Слабо: «A man answers a phone». • Сильно: «A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man in a weathered green trench coat as he picks up a rotary phone mounted on a gritty brick wall, bathed in the eerie glow of a green neon sign».
Конкретные детали внешности, среды, освещения и движения камеры — главный рычаг качества.
Камера и движение
Veo хорошо понимает камерные термины — это основной язык модели. Указывай в промпте хотя бы один из параметров: крупность плана, движение, угол или фокус. Крупность — wide shot, medium shot, close-up, extreme close-up, establishing shot. Движение — dolly shot, zoom in, zoom out, pan left/right, tracking shot, orbit. Угол — eye level, high angle, low angle, worm's eye, top-down, aerial shot. Фокус — shallow depth of field, rack focus, deep focus.
Спецприёмы — dolly zoom, one-take, handheld, steadicam, crane shot. Конкретные приёмы работают лучше абстрактного «cinematic camera»: «slow dolly-in from eye level» или «shaky handheld tracking shot» дают модели чёткое направление и стабильный результат.
Стиль, освещение, настроение
Стилистические модификаторы через префикс «In the style of [style]:» — LEGO, Claymation, Pixar animation, Anime, Graphic novel, 8-bit retro, Stop-motion, Origami, Blueprint, Marble. Это даёт радикальное переключение визуала при сохранении остальных параметров.
Качество — Cinematic, film grain, HDR, 4K, professional. Жанр — Hollywood blockbuster, indie film, documentary, commercial, music video, vlog. Цвет — warm tones, cool tones, high contrast, desaturated, neon, golden hour. Освещение — natural light, rim light, backlight, volumetric, neon glow, silhouette, blue light.
Для selfie-стиля: начинай с «A selfie video of...», укажи видимую руку («holds the camera at arm's length, arm clearly visible in frame») и естественные движения глаз. Это убирает синтетическое ощущение и даёт характерный POV.
Типичные ошибки
1. Слишком короткий промпт без деталей
«A beautiful video» или «a cool scene» — модель додумает всё сама и результат будет непредсказуем. Минимум: конкретный субъект с деталями внешности, физическое действие с глаголом, среда, и хотя бы одно указание на камеру. Без этих четырёх элементов Veo сваливается в «обобщённый красивый кадр» без направления.
2. Абстрактные формулировки вместо конкретики
«Cinematic look», «beautiful lighting», «high quality» ничего не говорят модели — это субъективные слова. Заменяй конкретикой: «shallow depth of field», «golden hour sunlight», «35mm film grain», «soft window light with warm tungsten fill». Конкретные параметры работают, абстрактные оценочные прилагательные — нет.
3. Конфликтующие инструкции по камере
«Zoom in and zoom out», «static shot with tracking», «wide angle close-up» — модель не может выполнить противоречие и либо игнорирует часть инструкции, либо выдаёт хаотичное движение. Выбирай одно движение камеры на клип. Сложную раскадровку собирай из нескольких клипов в посте.
4. Отсутствие описания действия
Статичная сцена без динамики — Veo сгенерирует «застывшее» видео с минимальным движением, выглядит как gif. Описывай физическое действие: «picks up the phone, turns around, walks», «leaves blow across the empty street», «steam rises slowly from the coffee cup». Без действия видео теряет смысл.
5. Попытка вертикального видео в базовом Veo
Veo 1/2 нативно не поддерживает вертикальный формат — выход всегда 16:9. Если пытаться через промпт («vertical video», «9:16»), модель проигнорирует и выдаст горизонтальный кадр. Для вертикали либо используй Veo 3.1 (там 9:16 поддерживается нативно), либо обрезай в постобработке.
Примеры до/после
Пример 1
Было
a man answers a phone
Стало
A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man in a weathered green trench coat as he picks up a rotary phone mounted on a gritty brick wall, bathed in the eerie glow of a green neon sign. Camera: handheld with subtle micro-shake, dolly zoom effect. Lighting: green neon key from above, deep shadows in the alley. Mood: tense, noir, claustrophobic.
Конкретный персонаж с одеждой, эмоция в описании («desperate»), точное движение камеры (dolly zoom), сетап освещения с источником и направлением, явное настроение.
Пример 2
Было
a selfie video of someone in the city
Стало
A selfie video of a young woman with curly red hair and a black leather jacket walking through Tokyo's Shibuya crossing at night. She holds the camera at arm's length, arm clearly visible in frame, occasionally looking into the lens and smiling. Background: neon signs, crowd of pedestrians, light rain. Lighting: cool neon glow with warm spill from storefronts. Style: slightly grainy, film-like, vlog aesthetic.
Формат selfie-видео: явная видимая рука, естественные движения глаз, конкретный фон с деталями, цветовая характеристика среды. Veo любит «slightly grainy, film-like» — убирает AI-чистоту.
Пример 3
Было
a product video of headphones
Стало
Commercial product shot. Smooth 360-degree orbit around matte-black wireless headphones on a white marble pedestal against a seamless white background. Camera: slow continuous orbit at eye level, shallow depth of field, medium close-up. Lighting: large softbox key from above-left, gentle rim light from behind, soft gradient fill from the right. Style: clean commercial photography, premium minimalism. Mood: confident, refined.
Конкретное движение камеры (smooth orbit), материал и фон, трёхточечный сетап освещения с явными источниками, стилистический референс «commercial photography».