Runway Gen-4.5: как писать промпты, которые модель понимает
Runway · Обновлено:
Runway Gen-4.5 — первая модель Runway с полноценным text-to-video плюс image-to-video в одной архитектуре. Autoregressive-to-Diffusion даёт заметно улучшенную физику воды, ткани и инерции, гибкую длительность от 2 до 10 секунд и уникальный timestamp-синтаксис для последовательных beat'ов внутри одного клипа. Негативные промпты и JSON по-прежнему не работают.
Что нового в Gen-4.5
Главное отличие от Gen-4 — самостоятельный T2V-режим. Сцена строится прямо из текста, без обязательного референса. При этом I2V тоже на месте и работает по тем же правилам, что и в Gen-4: описывай только движение.
Второе отличие — гибкая длительность от 2 до 10 секунд (не только 5 или 10), плюс выбор 24 или 25 fps. Третье — timestamp-синтаксис вида `[00:01]`, `[00:03]`, который позволяет режиссировать последовательные действия с точностью до секунды. И четвёртое — заметно улучшенная физика жидкостей, ткани и моментум: всплеск воды, развевающаяся ткань, падающая пыль выглядят убедительнее, чем в Gen-4.
- T2V + I2V в одной модели — выбор по сценарию
- Гибкая длительность 2–10 секунд (24 или 25 fps)
- Timestamp-синтаксис: `[00:01]`, `[00:03]` для секундных таймкодов
- Улучшенная физика воды, ткани, частиц
- T2V aspect: только 1280:720 и 720:1280; I2V — много вариантов
Структура промпта для T2V
В T2V-режиме нужно описать всю сцену: камера, субъект, действие, среда. Базовая формула — [Camera] shot of [subject] [action] in [environment]. [Supporting descriptions].
Оптимально начинать с типа кадра и движения камеры: «Wide tracking shot of a runner sprinting across a misty beach at sunrise.» Это сразу задаёт композицию. Среда даёт модели нужный mood — освещение, атмосферу, текстуры.
Максимум промпта неофициально — около 1 800 символов. Естественный язык работает лучше, чем теги или JSON. Активные глаголы в настоящем времени, конкретные физические детали типа «water splashing», «fabric draping», «dust settling».
Структура промпта для I2V
В I2V-режиме правила те же, что и в Gen-4: входное изображение задаёт визуал, промпт описывает ТОЛЬКО движение. Не нужно описывать платье, парк, освещение — это уже на референсе. Просто скажи, что должно двигаться и как ходит камера.
Оптимальная длина для I2V-промпта — 10–30 слов. Если описывать содержимое референса, это тратит токены и иногда конфликтует с реальным изображением. Активные глаголы, одно главное камерное движение, опциональный модификатор скорости — «slowly», «gradually», «suddenly».
Timestamp-синтаксис для последовательных сцен
Уникальная фича Gen-4.5 — режиссура по таймкодам. Формат: `[00:01] action`, `[00:03] next action`. Это лучший способ выстроить мини-нарратив из нескольких действий внутри 5–10 секундного клипа.
Ключевое правило — таймкоды должны быть реалистичны. «Ходьба через комнату за 0.5 секунды» физически невозможна, и модель попытается это нарушить либо испортит динамику. Давай достаточно времени между beat'ами: 2–3 секунды на полноценное действие, 1 секунда — для короткого жеста или смены кадра.
Пример: `[00:01] A bird takes off from a branch. [00:03] It soars over a misty valley. [00:06] Camera pulls back to reveal the full mountain range.`
Типичные ошибки
1. Смешение T2V и I2V логики
В T2V нужно описать всю сцену, в I2V — только движение. Если в I2V описать «a woman in red in a park» — модель будет сопоставлять текст с референсом и иногда дрейфовать. Если в T2V забыть среду и субъект — получится «just a camera move» без содержимого. Понимай, в каком режиме работаешь, и пиши соответственно.
2. Нереалистичные таймкоды
`[00:01] walks across the room [00:02] sits down [00:03] picks up the cup` — это нереалистично для 3 секунд экранного времени. Модель либо ускорит движение до неестественного, либо проигнорирует часть beat'ов. Дай каждому действию 2–3 секунды дыхания, коротким жестам — 1 секунду.
3. Негативные промпты
Gen-4.5 не поддерживает негативные промпты — это документированное ограничение. «No clouds» может вызвать облака, «without text» — добавить текст. Описывай желаемое позитивно: вместо «no fog» пиши «clear visibility», вместо «no jitter» — «smooth steadicam motion».
4. Aspect ratio mismatch в T2V
T2V в Gen-4.5 поддерживает только два соотношения сторон: 1280:720 (landscape) и 720:1280 (portrait). Запросы вида «square 1:1» или «21:9 ultrawide» в T2V не выполнятся. I2V гибче — там много landscape/portrait/square вариантов, потому что aspect берётся из входного изображения.
5. JSON и командный стиль
Структуры `{"camera": "dolly", "action": "walk"}` или команды «add rain», «remove the hat», «pretend you are a director» Gen-4.5 не понимает. Пиши естественным языком, полными предложениями. Хорошо: «Light rain begins to fall as the camera pulls back.» Плохо: «add: rain. camera: pull back.»
Примеры до/после
Пример 1
Было
красивое кинематографичное видео заката над океаном с волнами
Стало
Wide cinematic shot of waves rolling onto a black sand beach at sunset. Slow dolly-in toward the foam line. Warm orange and deep purple sky reflected on the wet sand. Soft, deliberate pacing, natural light, 24fps.
T2V-промпт строит всю сцену: тип кадра, среда, движение камеры, цветовая палитра, fps. Активные глаголы в настоящем времени, никаких метафор.
Пример 2
Было
оживи это фото и сделай что-нибудь драматичное
Стало
Slow push-in toward the subject. Wind picks up gradually, lifting her hair and the edges of her coat. Camera stays steady, shallow depth maintained on the eyes.
I2V-режим — промпт описывает только движение и атмосферу, не содержимое референса. Физические детали (wind lifting hair, coat edges) дают убедительный мини-сюжет в 5 секундах.
Пример 3
Было
видео где человек заходит в кафе и садится за столик
Стало
[00:01] Wide shot, a man pushes open the cafe door, late afternoon light streaming in. [00:04] He walks across the wooden floor toward a corner table. [00:07] He pulls out the chair and sits down, exhales slowly. Camera follows at chest height, smooth steadicam.
Timestamp-синтаксис разбивает 10-секундный нарратив на три beat'а с реалистичным таймингом — 3 секунды на каждое действие. Это сильная сторона именно Gen-4.5.