Можно ли использовать Act-Two только с текстовым промптом?

Нет, Act-Two — performance transfer модель, а не text-to-video. Без driving video и character reference генерация физически не запустится. Если нужно сделать видео по текстовому описанию, бери Runway Gen-4.5 — она поддерживает полноценный T2V. Act-Two нужен именно когда уже есть перформанс или планируется его записать.

Чем driving video отличается от character reference?

Driving video — это запись актёрского перформанса с движениями и мимикой, источник того, что будет переноситься. Character reference — изображение или видео персонажа, на которого переносится. Driving задаёт КАК двигаться, reference задаёт КАК выглядеть. Оба нужны одновременно, без любого из них Act-Two не работает.

Какое значение Facial Expressiveness ставить?

Дефолт — 3, это рекомендованное Runway значение для большинства сцен. 1–2 даёт сдержанную мимику, подходит для документального тона. 4 можно пробовать для драматических сцен, но артефакты вероятны. 5 почти всегда даёт «поплывшее» лицо и не рекомендуется. Если артефакты появились — снижай Expressiveness, не пытайся компенсировать промптом.

Можно ли получить gesture control?

Да, но только если character reference подан как image (не как video). Image-режим даёт дополнительный контроль над переносом жестов рук. Для лучшего захвата начинай driving video с ладонями к камере — это помогает модели зафиксировать руки и потом точнее переносить жесты по всему клипу.

Подходит ли Act-Two для дубляжа на другой язык?

Да, это один из сильных сценариев. Driving video — новая запись с речью на целевом языке (можно своим голосом), character reference — изображение или кадр из оригинального видео. Act-Two перенесёт lip-sync под новый язык, сохранив внешность персонажа. Качество lip-sync зависит от чистоты аудио в driving video.

Какие у Act-Two ограничения по длительности?

Длительность результата задаётся длительностью driving video — модель переносит перформанс кадр в кадр. Чем длиннее driving, тем выше расход кредитов (5 кредитов/сек). Для коротких реплик и микро-сцен это экономично, для многоминутных монологов сценарии лучше разбивать на отдельные генерации.

Поддерживается ли Opten для Runway Act-Two?

Да, расширение Opten распознаёт Act-Two внутри runwayml.com и учитывает её особый input-driven характер: если пользователь пишет развёрнутый текстовый промпт, Opten предупреждает, что модель управляется видео-вводом, а не текстом. Также проверяется наличие обоих входов (driving video + character reference) и адекватность Facial Expressiveness.

Video

Runway Act-Two: как готовить вход, который модель понимает

Name: Runway Act-Two
Brand: Runway

Runway · Обновлено: 19 мая 2026 г.

Runway Act-Two — это performance transfer модель, а не text-to-video. На вход подаётся driving video с актёрским перформансом и character reference (изображение или видео), модель переносит движение тела, мимику и lip-sync на персонажа. Текстовый промпт здесь играет минимальную роль — качество определяется входными данными.

Что умеет Act-Two

Act-Two работает как AI Motion Capture без mocap-костюмов: записываешь актёрский перформанс на обычную веб-камеру, выбираешь character reference, и модель переносит на него движение тела, мимику и аудио-lip-sync. Выход — 720p видео по 5 кредитов/сек.

Это принципиально другой класс моделей: ни T2V, ни I2V. Текстовый промпт почти не влияет на результат. Параметр Facial Expressiveness (шкала 1–5) регулирует степень переноса мимики — значения выше 3 могут давать артефакты. Если character reference подан как image, доступно дополнительное gesture control.

Performance transfer — НЕ text-to-video и НЕ prompt-driven
Driving video + character reference обязательны
Переносится: body motion, мимика, lip-sync (audio)
Facial Expressiveness 1–5 (выше 3 — риск артефактов)
720p, 5 кредитов/сек

Что подавать на вход

Driving video — твоё видео с перформансом. Может быть запись с веб-камеры или подготовленный клип. Главные требования: чёткое освещение лица без резких теней, отчётливое аудио для lip-sync, и желательно начать кадр с ладонями к камере — это помогает модели захватить руки и потом точнее переносить жесты.

Character reference — кому переносить перформанс. Может быть статичное изображение или короткое видео. Изображение даёт доступ к gesture control (дополнительный контроль над руками), видео — лучшую консистентность мимики на длительных сценах. В обоих случаях освещение и поза должны быть чёткими, лицо без перекрытий.

Роль текстового промпта

Act-Two — input-driven модель. Текстовый промпт играет минимальную, почти декоративную роль. Всё, что обычно описывают в промпте (движения, мимика, lip-sync), здесь приходит из driving video; всё, что касается внешности (одежда, лицо, фон), приходит из character reference.

Если пишешь развёрнутый текстовый промпт «a man in a suit, walking, smiling, saying hello» — он будет либо проигнорирован, либо вступит в конфликт с входными данными. Если хочешь конкретные движения — сыграй их в driving video. Если хочешь конкретную внешность — подбери character reference. Промпт оставь пустым или коротко опиши контекст сцены.

Настройка Facial Expressiveness

Шкала 1–5 регулирует степень переноса лицевой экспрессии. Значение 1–2 — спокойная, сдержанная мимика, минимальный риск артефактов. Значение 3 — рекомендуемый дефолт, переносит большинство выражений естественно. Значение 4–5 — максимальная экспрессия, но возрастает риск артефактов: лицо может «плыть», глаза дёргаться, мимика выглядеть утрированной.

Правило: начинай с 3, поднимай только если результат выглядит слишком плоским. Для драматических сцен 4 может работать, но дальше обычно начинаются проблемы. Если артефакты появились — снижай Expressiveness, а не пытайся компенсировать промптом.

Типичные ошибки

1. Развёрнутый текстовый промпт как основное управление
Act-Two — input-driven, не prompt-driven модель. Описание движений и мимики в промпте либо игнорируется, либо вступает в конфликт с driving video. Если хочешь конкретные движения — сыграй их перед камерой. Промпт оставь пустым или впиши только короткий контекст сцены.
2. Отсутствие driving video или character reference
Act-Two физически не может работать без обоих входов. Driving video задаёт перформанс, character reference — кого анимировать. Если запустил без одного из них, генерация либо не стартует, либо даёт мусорный выход. Перед запуском проверь оба слота в Generation Settings.
3. Facial Expressiveness выше 3 как дефолт
Значения 4–5 могут давать впечатляющую экспрессию, но риск артефактов растёт нелинейно: лицо плывёт, глаза дёргаются, мимика выглядит утрированной. Начинай всегда с 3, поднимай только если результат явно плоский. Снижение Expressiveness — лучший фикс артефактов, чем перегенерация.
4. Тёмный или зашумлённый driving video
Резкие тени на лице ломают face tracking, шумное аудио ломает lip-sync. Перформанс должен сниматься в равномерном soft-освещении (окно, softbox), с чистым аудио. Никакой «оптимизации» промпта это не починит — переснять driving video всегда быстрее и эффективнее.
5. Использование Act-Two как обычного T2V/I2V
Act-Two — это система переноса перформанса, а не генератор сцены. Промпты вроде «a man walks across the room» здесь не работают, потому что движение не генерируется, а копируется из driving video. Если нужен генератор сцены — бери Gen-4.5 или Gen-4, а не Act-Two.

Примеры до/после

Пример 1

Было

Развёрнутый текстовый промпт: «A young woman in a red sweater speaks to the camera, smiling warmly, gesturing with her hands as she explains a new product.»

Стало

Driving video: 15-секундная запись на веб-камеру, актриса говорит реплику чётко, ладони к камере в начале кадра, ровное освещение.
Character reference: portrait image персонажа в красном свитере.
Prompt: (пусто или коротко: «product explainer scene»).
Facial Expressiveness: 3.

Текстовый промпт в Act-Two бесполезен для управления движениями и мимикой — это всё переносится из driving video. Замени промпт качественной записью перформанса.

Пример 2

Было

Character reference: dramatic painted portrait, Facial Expressiveness: 5

Стало

Character reference: чёткое фото или живой видео-референс персонажа, ровное освещение, лицо без перекрытий.
Facial Expressiveness: 3.

Painted/stylized референсы плохо переносят мимику. Expressiveness 5 на любом референсе почти гарантированно даёт артефакты. Понизь до 3, выбери чёткий референс — результат стабильнее.

Пример 3

Было

Driving video: тёмная запись с резкими тенями, аудио с шумом

Стало

Driving video: запись в равномерном освещении (естественный свет от окна или soft box), отчётливое аудио без шума, в начале кадра ладони видны.
Character reference + Expressiveness 3.

Качество driving video напрямую определяет качество переноса. Резкие тени ломают face tracking, шумное аудио ломает lip-sync. Переснять перформанс — лучшая «оптимизация» промпта в Act-Two.

Runway Act-Two: как готовить вход, который модель понимает

Что умеет Act-Two

Что подавать на вход

Роль текстового промпта

Настройка Facial Expressiveness

Типичные ошибки

1. Развёрнутый текстовый промпт как основное управление

2. Отсутствие driving video или character reference

3. Facial Expressiveness выше 3 как дефолт

4. Тёмный или зашумлённый driving video

5. Использование Act-Two как обычного T2V/I2V

Примеры до/после

Частые вопросы

Похожие модели

Google Veo 3.1 (включает Veo 3.1 Fast и Veo 3.1 Fast Relax)

Google Veo 3

Google Veo (General)

Готов писать промпты для Runway Act-Two в один клик?