Runway Act-Two: как готовить вход, который модель понимает
Runway · Обновлено:
Runway Act-Two — это performance transfer модель, а не text-to-video. На вход подаётся driving video с актёрским перформансом и character reference (изображение или видео), модель переносит движение тела, мимику и lip-sync на персонажа. Текстовый промпт здесь играет минимальную роль — качество определяется входными данными.
Что умеет Act-Two
Act-Two работает как AI Motion Capture без mocap-костюмов: записываешь актёрский перформанс на обычную веб-камеру, выбираешь character reference, и модель переносит на него движение тела, мимику и аудио-lip-sync. Выход — 720p видео по 5 кредитов/сек.
Это принципиально другой класс моделей: ни T2V, ни I2V. Текстовый промпт почти не влияет на результат. Параметр Facial Expressiveness (шкала 1–5) регулирует степень переноса мимики — значения выше 3 могут давать артефакты. Если character reference подан как image, доступно дополнительное gesture control.
- Performance transfer — НЕ text-to-video и НЕ prompt-driven
- Driving video + character reference обязательны
- Переносится: body motion, мимика, lip-sync (audio)
- Facial Expressiveness 1–5 (выше 3 — риск артефактов)
- 720p, 5 кредитов/сек
Что подавать на вход
Driving video — твоё видео с перформансом. Может быть запись с веб-камеры или подготовленный клип. Главные требования: чёткое освещение лица без резких теней, отчётливое аудио для lip-sync, и желательно начать кадр с ладонями к камере — это помогает модели захватить руки и потом точнее переносить жесты.
Character reference — кому переносить перформанс. Может быть статичное изображение или короткое видео. Изображение даёт доступ к gesture control (дополнительный контроль над руками), видео — лучшую консистентность мимики на длительных сценах. В обоих случаях освещение и поза должны быть чёткими, лицо без перекрытий.
Роль текстового промпта
Act-Two — input-driven модель. Текстовый промпт играет минимальную, почти декоративную роль. Всё, что обычно описывают в промпте (движения, мимика, lip-sync), здесь приходит из driving video; всё, что касается внешности (одежда, лицо, фон), приходит из character reference.
Если пишешь развёрнутый текстовый промпт «a man in a suit, walking, smiling, saying hello» — он будет либо проигнорирован, либо вступит в конфликт с входными данными. Если хочешь конкретные движения — сыграй их в driving video. Если хочешь конкретную внешность — подбери character reference. Промпт оставь пустым или коротко опиши контекст сцены.
Настройка Facial Expressiveness
Шкала 1–5 регулирует степень переноса лицевой экспрессии. Значение 1–2 — спокойная, сдержанная мимика, минимальный риск артефактов. Значение 3 — рекомендуемый дефолт, переносит большинство выражений естественно. Значение 4–5 — максимальная экспрессия, но возрастает риск артефактов: лицо может «плыть», глаза дёргаться, мимика выглядеть утрированной.
Правило: начинай с 3, поднимай только если результат выглядит слишком плоским. Для драматических сцен 4 может работать, но дальше обычно начинаются проблемы. Если артефакты появились — снижай Expressiveness, а не пытайся компенсировать промптом.
Типичные ошибки
1. Развёрнутый текстовый промпт как основное управление
Act-Two — input-driven, не prompt-driven модель. Описание движений и мимики в промпте либо игнорируется, либо вступает в конфликт с driving video. Если хочешь конкретные движения — сыграй их перед камерой. Промпт оставь пустым или впиши только короткий контекст сцены.
2. Отсутствие driving video или character reference
Act-Two физически не может работать без обоих входов. Driving video задаёт перформанс, character reference — кого анимировать. Если запустил без одного из них, генерация либо не стартует, либо даёт мусорный выход. Перед запуском проверь оба слота в Generation Settings.
3. Facial Expressiveness выше 3 как дефолт
Значения 4–5 могут давать впечатляющую экспрессию, но риск артефактов растёт нелинейно: лицо плывёт, глаза дёргаются, мимика выглядит утрированной. Начинай всегда с 3, поднимай только если результат явно плоский. Снижение Expressiveness — лучший фикс артефактов, чем перегенерация.
4. Тёмный или зашумлённый driving video
Резкие тени на лице ломают face tracking, шумное аудио ломает lip-sync. Перформанс должен сниматься в равномерном soft-освещении (окно, softbox), с чистым аудио. Никакой «оптимизации» промпта это не починит — переснять driving video всегда быстрее и эффективнее.
5. Использование Act-Two как обычного T2V/I2V
Act-Two — это система переноса перформанса, а не генератор сцены. Промпты вроде «a man walks across the room» здесь не работают, потому что движение не генерируется, а копируется из driving video. Если нужен генератор сцены — бери Gen-4.5 или Gen-4, а не Act-Two.
Примеры до/после
Пример 1
Было
Развёрнутый текстовый промпт: «A young woman in a red sweater speaks to the camera, smiling warmly, gesturing with her hands as she explains a new product.»
Стало
Driving video: 15-секундная запись на веб-камеру, актриса говорит реплику чётко, ладони к камере в начале кадра, ровное освещение. Character reference: portrait image персонажа в красном свитере. Prompt: (пусто или коротко: «product explainer scene»). Facial Expressiveness: 3.
Текстовый промпт в Act-Two бесполезен для управления движениями и мимикой — это всё переносится из driving video. Замени промпт качественной записью перформанса.
Пример 2
Было
Character reference: dramatic painted portrait, Facial Expressiveness: 5
Стало
Character reference: чёткое фото или живой видео-референс персонажа, ровное освещение, лицо без перекрытий. Facial Expressiveness: 3.
Painted/stylized референсы плохо переносят мимику. Expressiveness 5 на любом референсе почти гарантированно даёт артефакты. Понизь до 3, выбери чёткий референс — результат стабильнее.
Пример 3
Было
Driving video: тёмная запись с резкими тенями, аудио с шумом
Стало
Driving video: запись в равномерном освещении (естественный свет от окна или soft box), отчётливое аудио без шума, в начале кадра ладони видны. Character reference + Expressiveness 3.
Качество driving video напрямую определяет качество переноса. Резкие тени ломают face tracking, шумное аудио ломает lip-sync. Переснять перформанс — лучшая «оптимизация» промпта в Act-Two.