Video

Runway Act-Two: как готовить вход, который модель понимает

Runway · Обновлено:

Runway Act-Two — это performance transfer модель, а не text-to-video. На вход подаётся driving video с актёрским перформансом и character reference (изображение или видео), модель переносит движение тела, мимику и lip-sync на персонажа. Текстовый промпт здесь играет минимальную роль — качество определяется входными данными.

Что умеет Act-Two

Act-Two работает как AI Motion Capture без mocap-костюмов: записываешь актёрский перформанс на обычную веб-камеру, выбираешь character reference, и модель переносит на него движение тела, мимику и аудио-lip-sync. Выход — 720p видео по 5 кредитов/сек.

Это принципиально другой класс моделей: ни T2V, ни I2V. Текстовый промпт почти не влияет на результат. Параметр Facial Expressiveness (шкала 1–5) регулирует степень переноса мимики — значения выше 3 могут давать артефакты. Если character reference подан как image, доступно дополнительное gesture control.

  • Performance transfer — НЕ text-to-video и НЕ prompt-driven
  • Driving video + character reference обязательны
  • Переносится: body motion, мимика, lip-sync (audio)
  • Facial Expressiveness 1–5 (выше 3 — риск артефактов)
  • 720p, 5 кредитов/сек

Что подавать на вход

Driving video — твоё видео с перформансом. Может быть запись с веб-камеры или подготовленный клип. Главные требования: чёткое освещение лица без резких теней, отчётливое аудио для lip-sync, и желательно начать кадр с ладонями к камере — это помогает модели захватить руки и потом точнее переносить жесты.

Character reference — кому переносить перформанс. Может быть статичное изображение или короткое видео. Изображение даёт доступ к gesture control (дополнительный контроль над руками), видео — лучшую консистентность мимики на длительных сценах. В обоих случаях освещение и поза должны быть чёткими, лицо без перекрытий.

Роль текстового промпта

Act-Two — input-driven модель. Текстовый промпт играет минимальную, почти декоративную роль. Всё, что обычно описывают в промпте (движения, мимика, lip-sync), здесь приходит из driving video; всё, что касается внешности (одежда, лицо, фон), приходит из character reference.

Если пишешь развёрнутый текстовый промпт «a man in a suit, walking, smiling, saying hello» — он будет либо проигнорирован, либо вступит в конфликт с входными данными. Если хочешь конкретные движения — сыграй их в driving video. Если хочешь конкретную внешность — подбери character reference. Промпт оставь пустым или коротко опиши контекст сцены.

Настройка Facial Expressiveness

Шкала 1–5 регулирует степень переноса лицевой экспрессии. Значение 1–2 — спокойная, сдержанная мимика, минимальный риск артефактов. Значение 3 — рекомендуемый дефолт, переносит большинство выражений естественно. Значение 4–5 — максимальная экспрессия, но возрастает риск артефактов: лицо может «плыть», глаза дёргаться, мимика выглядеть утрированной.

Правило: начинай с 3, поднимай только если результат выглядит слишком плоским. Для драматических сцен 4 может работать, но дальше обычно начинаются проблемы. Если артефакты появились — снижай Expressiveness, а не пытайся компенсировать промптом.

Типичные ошибки

  1. 1. Развёрнутый текстовый промпт как основное управление

    Act-Two — input-driven, не prompt-driven модель. Описание движений и мимики в промпте либо игнорируется, либо вступает в конфликт с driving video. Если хочешь конкретные движения — сыграй их перед камерой. Промпт оставь пустым или впиши только короткий контекст сцены.

  2. 2. Отсутствие driving video или character reference

    Act-Two физически не может работать без обоих входов. Driving video задаёт перформанс, character reference — кого анимировать. Если запустил без одного из них, генерация либо не стартует, либо даёт мусорный выход. Перед запуском проверь оба слота в Generation Settings.

  3. 3. Facial Expressiveness выше 3 как дефолт

    Значения 4–5 могут давать впечатляющую экспрессию, но риск артефактов растёт нелинейно: лицо плывёт, глаза дёргаются, мимика выглядит утрированной. Начинай всегда с 3, поднимай только если результат явно плоский. Снижение Expressiveness — лучший фикс артефактов, чем перегенерация.

  4. 4. Тёмный или зашумлённый driving video

    Резкие тени на лице ломают face tracking, шумное аудио ломает lip-sync. Перформанс должен сниматься в равномерном soft-освещении (окно, softbox), с чистым аудио. Никакой «оптимизации» промпта это не починит — переснять driving video всегда быстрее и эффективнее.

  5. 5. Использование Act-Two как обычного T2V/I2V

    Act-Two — это система переноса перформанса, а не генератор сцены. Промпты вроде «a man walks across the room» здесь не работают, потому что движение не генерируется, а копируется из driving video. Если нужен генератор сцены — бери Gen-4.5 или Gen-4, а не Act-Two.

Примеры до/после

Пример 1

Было

Развёрнутый текстовый промпт: «A young woman in a red sweater speaks to the camera, smiling warmly, gesturing with her hands as she explains a new product.»

Стало

Driving video: 15-секундная запись на веб-камеру, актриса говорит реплику чётко, ладони к камере в начале кадра, ровное освещение.
Character reference: portrait image персонажа в красном свитере.
Prompt: (пусто или коротко: «product explainer scene»).
Facial Expressiveness: 3.

Текстовый промпт в Act-Two бесполезен для управления движениями и мимикой — это всё переносится из driving video. Замени промпт качественной записью перформанса.

Пример 2

Было

Character reference: dramatic painted portrait, Facial Expressiveness: 5

Стало

Character reference: чёткое фото или живой видео-референс персонажа, ровное освещение, лицо без перекрытий.
Facial Expressiveness: 3.

Painted/stylized референсы плохо переносят мимику. Expressiveness 5 на любом референсе почти гарантированно даёт артефакты. Понизь до 3, выбери чёткий референс — результат стабильнее.

Пример 3

Было

Driving video: тёмная запись с резкими тенями, аудио с шумом

Стало

Driving video: запись в равномерном освещении (естественный свет от окна или soft box), отчётливое аудио без шума, в начале кадра ладони видны.
Character reference + Expressiveness 3.

Качество driving video напрямую определяет качество переноса. Резкие тени ломают face tracking, шумное аудио ломает lip-sync. Переснять перформанс — лучшая «оптимизация» промпта в Act-Two.

Частые вопросы

Можно ли использовать Act-Two только с текстовым промптом?
Нет, Act-Two — performance transfer модель, а не text-to-video. Без driving video и character reference генерация физически не запустится. Если нужно сделать видео по текстовому описанию, бери Runway Gen-4.5 — она поддерживает полноценный T2V. Act-Two нужен именно когда уже есть перформанс или планируется его записать.
Чем driving video отличается от character reference?
Driving video — это запись актёрского перформанса с движениями и мимикой, источник того, что будет переноситься. Character reference — изображение или видео персонажа, на которого переносится. Driving задаёт КАК двигаться, reference задаёт КАК выглядеть. Оба нужны одновременно, без любого из них Act-Two не работает.
Какое значение Facial Expressiveness ставить?
Дефолт — 3, это рекомендованное Runway значение для большинства сцен. 1–2 даёт сдержанную мимику, подходит для документального тона. 4 можно пробовать для драматических сцен, но артефакты вероятны. 5 почти всегда даёт «поплывшее» лицо и не рекомендуется. Если артефакты появились — снижай Expressiveness, не пытайся компенсировать промптом.
Можно ли получить gesture control?
Да, но только если character reference подан как image (не как video). Image-режим даёт дополнительный контроль над переносом жестов рук. Для лучшего захвата начинай driving video с ладонями к камере — это помогает модели зафиксировать руки и потом точнее переносить жесты по всему клипу.
Подходит ли Act-Two для дубляжа на другой язык?
Да, это один из сильных сценариев. Driving video — новая запись с речью на целевом языке (можно своим голосом), character reference — изображение или кадр из оригинального видео. Act-Two перенесёт lip-sync под новый язык, сохранив внешность персонажа. Качество lip-sync зависит от чистоты аудио в driving video.
Какие у Act-Two ограничения по длительности?
Длительность результата задаётся длительностью driving video — модель переносит перформанс кадр в кадр. Чем длиннее driving, тем выше расход кредитов (5 кредитов/сек). Для коротких реплик и микро-сцен это экономично, для многоминутных монологов сценарии лучше разбивать на отдельные генерации.
Поддерживается ли Opten для Runway Act-Two?
Да, расширение Opten распознаёт Act-Two внутри runwayml.com и учитывает её особый input-driven характер: если пользователь пишет развёрнутый текстовый промпт, Opten предупреждает, что модель управляется видео-вводом, а не текстом. Также проверяется наличие обоих входов (driving video + character reference) и адекватность Facial Expressiveness.

Похожие модели

Готов писать промпты для Runway Act-Two в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время