Video

Runway Gen-4.5: как писать промпты, которые модель понимает

Runway · Обновлено:

Runway Gen-4.5 — первая модель Runway с полноценным text-to-video плюс image-to-video в одной архитектуре. Autoregressive-to-Diffusion даёт заметно улучшенную физику воды, ткани и инерции, гибкую длительность от 2 до 10 секунд и уникальный timestamp-синтаксис для последовательных beat'ов внутри одного клипа. Негативные промпты и JSON по-прежнему не работают.

Что нового в Gen-4.5

Главное отличие от Gen-4 — самостоятельный T2V-режим. Сцена строится прямо из текста, без обязательного референса. При этом I2V тоже на месте и работает по тем же правилам, что и в Gen-4: описывай только движение.

Второе отличие — гибкая длительность от 2 до 10 секунд (не только 5 или 10), плюс выбор 24 или 25 fps. Третье — timestamp-синтаксис вида `[00:01]`, `[00:03]`, который позволяет режиссировать последовательные действия с точностью до секунды. И четвёртое — заметно улучшенная физика жидкостей, ткани и моментум: всплеск воды, развевающаяся ткань, падающая пыль выглядят убедительнее, чем в Gen-4.

  • T2V + I2V в одной модели — выбор по сценарию
  • Гибкая длительность 2–10 секунд (24 или 25 fps)
  • Timestamp-синтаксис: `[00:01]`, `[00:03]` для секундных таймкодов
  • Улучшенная физика воды, ткани, частиц
  • T2V aspect: только 1280:720 и 720:1280; I2V — много вариантов

Структура промпта для T2V

В T2V-режиме нужно описать всю сцену: камера, субъект, действие, среда. Базовая формула — [Camera] shot of [subject] [action] in [environment]. [Supporting descriptions].

Оптимально начинать с типа кадра и движения камеры: «Wide tracking shot of a runner sprinting across a misty beach at sunrise.» Это сразу задаёт композицию. Среда даёт модели нужный mood — освещение, атмосферу, текстуры.

Максимум промпта неофициально — около 1 800 символов. Естественный язык работает лучше, чем теги или JSON. Активные глаголы в настоящем времени, конкретные физические детали типа «water splashing», «fabric draping», «dust settling».

Структура промпта для I2V

В I2V-режиме правила те же, что и в Gen-4: входное изображение задаёт визуал, промпт описывает ТОЛЬКО движение. Не нужно описывать платье, парк, освещение — это уже на референсе. Просто скажи, что должно двигаться и как ходит камера.

Оптимальная длина для I2V-промпта — 10–30 слов. Если описывать содержимое референса, это тратит токены и иногда конфликтует с реальным изображением. Активные глаголы, одно главное камерное движение, опциональный модификатор скорости — «slowly», «gradually», «suddenly».

Timestamp-синтаксис для последовательных сцен

Уникальная фича Gen-4.5 — режиссура по таймкодам. Формат: `[00:01] action`, `[00:03] next action`. Это лучший способ выстроить мини-нарратив из нескольких действий внутри 5–10 секундного клипа.

Ключевое правило — таймкоды должны быть реалистичны. «Ходьба через комнату за 0.5 секунды» физически невозможна, и модель попытается это нарушить либо испортит динамику. Давай достаточно времени между beat'ами: 2–3 секунды на полноценное действие, 1 секунда — для короткого жеста или смены кадра.

Пример: `[00:01] A bird takes off from a branch. [00:03] It soars over a misty valley. [00:06] Camera pulls back to reveal the full mountain range.`

Типичные ошибки

  1. 1. Смешение T2V и I2V логики

    В T2V нужно описать всю сцену, в I2V — только движение. Если в I2V описать «a woman in red in a park» — модель будет сопоставлять текст с референсом и иногда дрейфовать. Если в T2V забыть среду и субъект — получится «just a camera move» без содержимого. Понимай, в каком режиме работаешь, и пиши соответственно.

  2. 2. Нереалистичные таймкоды

    `[00:01] walks across the room [00:02] sits down [00:03] picks up the cup` — это нереалистично для 3 секунд экранного времени. Модель либо ускорит движение до неестественного, либо проигнорирует часть beat'ов. Дай каждому действию 2–3 секунды дыхания, коротким жестам — 1 секунду.

  3. 3. Негативные промпты

    Gen-4.5 не поддерживает негативные промпты — это документированное ограничение. «No clouds» может вызвать облака, «without text» — добавить текст. Описывай желаемое позитивно: вместо «no fog» пиши «clear visibility», вместо «no jitter» — «smooth steadicam motion».

  4. 4. Aspect ratio mismatch в T2V

    T2V в Gen-4.5 поддерживает только два соотношения сторон: 1280:720 (landscape) и 720:1280 (portrait). Запросы вида «square 1:1» или «21:9 ultrawide» в T2V не выполнятся. I2V гибче — там много landscape/portrait/square вариантов, потому что aspect берётся из входного изображения.

  5. 5. JSON и командный стиль

    Структуры `{"camera": "dolly", "action": "walk"}` или команды «add rain», «remove the hat», «pretend you are a director» Gen-4.5 не понимает. Пиши естественным языком, полными предложениями. Хорошо: «Light rain begins to fall as the camera pulls back.» Плохо: «add: rain. camera: pull back.»

Примеры до/после

Пример 1

Было

красивое кинематографичное видео заката над океаном с волнами

Стало

Wide cinematic shot of waves rolling onto a black sand beach at sunset. Slow dolly-in toward the foam line. Warm orange and deep purple sky reflected on the wet sand. Soft, deliberate pacing, natural light, 24fps.

T2V-промпт строит всю сцену: тип кадра, среда, движение камеры, цветовая палитра, fps. Активные глаголы в настоящем времени, никаких метафор.

Пример 2

Было

оживи это фото и сделай что-нибудь драматичное

Стало

Slow push-in toward the subject. Wind picks up gradually, lifting her hair and the edges of her coat. Camera stays steady, shallow depth maintained on the eyes.

I2V-режим — промпт описывает только движение и атмосферу, не содержимое референса. Физические детали (wind lifting hair, coat edges) дают убедительный мини-сюжет в 5 секундах.

Пример 3

Было

видео где человек заходит в кафе и садится за столик

Стало

[00:01] Wide shot, a man pushes open the cafe door, late afternoon light streaming in. [00:04] He walks across the wooden floor toward a corner table. [00:07] He pulls out the chair and sits down, exhales slowly. Camera follows at chest height, smooth steadicam.

Timestamp-синтаксис разбивает 10-секундный нарратив на три beat'а с реалистичным таймингом — 3 секунды на каждое действие. Это сильная сторона именно Gen-4.5.

Частые вопросы

Чем Gen-4.5 отличается от Gen-4?
Главных отличий четыре: самостоятельный T2V-режим (Gen-4 только I2V), гибкая длительность 2–10 секунд против фиксированных 5/10, timestamp-синтаксис для секундных таймкодов и заметно улучшенная физика воды, ткани и моментум. Архитектура тоже новая — Autoregressive-to-Diffusion вместо чистой diffusion. Для большинства задач это апгрейд, кроме случаев когда нужна минимальная стоимость на простой I2V.
Когда использовать T2V, а когда I2V?
T2V — когда сцены ещё нет и хочешь сгенерировать всё из текста: концепт-видео, мини-нарративы, прототипы. I2V — когда есть конкретный референс (продукт, портрет, локация) и нужно его оживить. I2V даёт больше визуального контроля, T2V — больше творческой свободы. На одной модели можно смело комбинировать оба режима в проекте.
Как правильно использовать timestamp-синтаксис?
Формат `[00:01] action`, `[00:03] next action` с реалистичными таймкодами. Давай каждому полноценному действию 2–3 секунды, коротким жестам — 1 секунду. Не клади больше 3–4 beat'ов на 10-секундный клип. Это инструмент для последовательного нарратива, не для упаковки максимума событий в минимум времени.
Какие aspect ratio поддерживаются?
В T2V только два варианта: 1280:720 (landscape) и 720:1280 (portrait) — другие соотношения не выполнятся. В I2V гибче: aspect берётся из входного изображения, есть множество landscape, portrait и square опций. FPS на выбор 24 или 25 для обоих режимов.
Можно ли превысить 10 секунд за одну генерацию?
Нет, лимит одной генерации Gen-4.5 — 10 секунд (минимум 2). Для более длинных нарративов нужно собирать клип из нескольких генераций, используя последний кадр предыдущей как вход в следующую. Это требует ручной работы, но даёт продакшн-уровень нарратива на 30+ секунд.
Какой длины должен быть промпт?
Для I2V — 10–30 слов, как в Gen-4. Для T2V — длиннее, до 1 800 символов неофициально, потому что нужно описать сцену целиком. Для timestamp-промптов длина естественно растёт за счёт нескольких beat'ов. Главное правило — концентрация смысла, не объём: каждое предложение должно нести физическое или визуальное действие.
Поддерживается ли Opten для Runway Gen-4.5?
Да, расширение Opten автоматически распознаёт Runway внутри runwayml.com и оценивает промпты по структуре, специфичной для Gen-4.5: проверяет соответствие T2V/I2V режиму, реалистичность таймкодов в timestamp-промптах, отсутствие негативных конструкций и JSON. Одним кликом можно получить rewrite, перестроенный под выбранный режим.

Похожие модели

Готов писать промпты для Runway Gen-4.5 в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время