Video

Happy Horse 1.0: как писать промпты, которые модель понимает

Alibaba · Обновлено:

Happy Horse 1.0 (快乐小马) — video-модель от Alibaba ATH AI Innovation Unit, 15B параметров, unified single-stream Transformer. Генерирует 5–8 секунд 1080p за ~10 секунд на H100. Joint audio-video в одном forward pass, lip-sync на 7 языках, open source. Главное правило промптинга — brevity wins, ~20 слов на простой кадр.

Что умеет Happy Horse 1.0

Happy Horse — open-source модель с топ-1 рейтингом на Artificial Analysis Video Arena (T2V Elo 1333, I2V Elo 1392). T2I и I2V из одних и тех же весов, нативные 1080p без апскейла.

Kлючевая фича — joint audio-video: видео и звук генерируются в одном forward pass и синхронизированы по умолчанию. Lip-sync на 7 языках (English, Mandarin, Cantonese, Japanese, Korean, German, French) с ультра-низким WER. До 12 multimodal входов: текст + reference images + reference videos + audio references. Длительность 5–8 секунд по умолчанию, до 15 на платном тире.

  • 15B параметров, unified single-stream Transformer
  • Нативный 1080p без апскейла, длительность 5–8 секунд
  • Joint audio-video в одном forward pass
  • Lip-sync на 7 языках с ультра-низким WER
  • Топ-1 на Artificial Analysis Video Arena (T2V и I2V)

Структура промпта и правило 20 слов

Default-шаблон закрывает 80% задач: «[Subject] [does action] in [setting], [time of day], [one atmosphere or camera cue]». Примерно 20 слов.

Примеры рабочих промптов: «A young woman in a red coat walks down a wet city street at night, neon reflections». «A 1965 cherry-red Mustang convertible drives along a winding California coastal highway at midday». «An orange tabby cat coiled on a velvet sofa leaps to a tall oak bookshelf».

Золотое правило: brevity wins. У модели конечный «бюджет внимания», и каждое лишнее слово отнимает мощность у рендеринга. Длинные промпты буквально ухудшают результат: лица плывут, кисти теряют геометрию, походка уплощается.

Когда уместен длинный промпт

Длинный промпт оправдан в одном случае — когда кадр опирается на язык камеры (Steadicam push, slow dolly-in, helicopter aerial). Камерный cue ставь в конец промпта — там он получает максимальный вес.

Для multi-beat сцен используй shot list с таймкодами: «Shot 1 (wide establishing, 0-1s): ...», «Shot 2 (mid tracking, 1-4s): ...», «Shot 3 (slow push-in close, 4-5s): ...». В тестах fal.ai shot-list с таймкодами разводит beat'ы корректно, а та же сцена в виде сплошной прозы коллапсирует в одно размытое движение.

Markdown секции (## Subject, ## Action, ## Setting, ## Camera, ## Lighting, ## Mood) — для single-take с множеством осей контроля. Использовать ТОЛЬКО когда есть контент для большинства секций. Пустые заголовки вредят.

Сильные стороны и слабые

Сильные стороны (используйте их): камерные движения (Steadicam push, slow dolly-in, helicopter aerial — модель необычно хорошо понимает английскую камерную лексику); атмосферное освещение (blue hour alley, neon noir, single hard top-down key с deep falloff, warm amber backlight + cool blue ambient); машины, металл, хром, отражения; ткани и волосы на ветру (secondary motion удерживается всю длительность); огонь и искры с правильной теплотой.

Слабые стороны: длинные human action sequences с лицами в фокусе. Сторителлинг-проза вместо production notes (модель исполняет инструкции, не повествование). Эмоция как абстракция («sad woman», «happy moment») — переводи в физические детали: микро-выражения, направление взгляда, темп дыхания, паузы.

Типичные ошибки

  1. 1. Слишком длинный промпт для простой сцены

    Главный антипаттерн модели. Длинные промпты для простых сцен буквально ухудшают результат: лица плывут к усреднённому образу, кисти теряют геометрию, походка уплощается. ~20 слов — золотая середина. Длиннее — только если оправдано камерным языком или multi-beat сценой.

  2. 2. Эпитеты-хеджи и quality-бустеры

    «Beautiful, stunning, gorgeous, masterpiece, epic, breathtaking, insane detail, ultra detailed, hyperrealistic» — съедают токенный бюджет и тянут к average-look. Заменяй на конкретику: «overcast daylight, wet asphalt», «neon pink and cyan reflections», «35mm telephoto, shallow depth of field».

  3. 3. Эмоция как абстракция

    «Sad woman thinking about her past», «happy moment», «emotional scene» — Happy Horse не понимает эмоцию как концепцию. Переводи в физические детали: «close-up of a young woman standing still, soft wind moving her hair, neutral expression, slow blink, shallow depth of field». Микро-выражения, направление взгляда, темп дыхания.

  4. 4. Mandarin для визуала

    Даже несмотря на китайское происхождение модели от Alibaba, английский даёт лучший рендеринг визуала. Mandarin используй ТОЛЬКО в DIALOGUE-блоке для китайского lip-sync. Все production notes (subject, action, setting, camera, lighting) — на английском.

  5. 5. Booru-теги, JSON, weighted parentheses

    Запятые с ключевиками без предложений (Booru-стиль), JSON-объекты и weighted parentheses `(keyword:1.2)` (синтаксис Stable Diffusion) — заметно проигрывают английской прозе. Happy Horse обучен на естественном языке. Пиши предложениями и production notes.

Примеры до/после

Пример 1

Было

A beautiful gorgeous stunning woman in a magnificent red coat masterpiece walking elegantly down a breathtaking wet city street at night with insane neon reflections, ultra detailed, hyperrealistic, 8k cinematography

Стало

A young woman in a red coat walks down a wet city street at night, neon reflections, 35mm telephoto, slow tracking dolly.

Anti-slop правило: эпитеты-хеджи (beautiful, gorgeous, stunning, masterpiece, ultra detailed) съедают токенный бюджет и тянут к average-look. ~20 слов с камерным cue в конце — sweet spot.

Пример 2

Было

happy man walking and feeling good about life in a nice park

Стало

A young man walks through a sunlit park in autumn, slow exhale visible in cool air, soft smile, hand brushing fallen leaves, golden hour, slow side tracking.

Эмоция как абстракция («happy», «feeling good») — модель не понимает. Перевод в физические детали (slow exhale, soft smile, hand brushing leaves) даёт видимое движение.

Пример 3

Было

A complex cinematic scene where a detective enters the dimly lit room, looks around suspiciously, finds a clue on the table, picks it up, examines it carefully, and then walks out the door

Стало

Shot 1 (wide establishing, 0-1s): A detective in a wool coat enters a dim hotel room; single hard top-down key, deep falloff to black.
Shot 2 (close-up, 1-3s): His hand picks up a folded note from the wood desk; warm amber practical light.
Shot 3 (medium tracking, 3-5s): He turns and walks toward the door; slow side tracking, neon glow through the blinds.

Сплошная проза с несколькими действиями коллапсирует в одно размытое движение. Shot list с таймкодами разводит beat'ы корректно.

Частые вопросы

Какая оптимальная длина промпта?
~20 слов на простой кадр — золотая середина. Default-шаблон «[Subject] [does action] in [setting], [time of day], [one atmosphere or camera cue]» закрывает 80% задач. Длиннее оправдано только когда кадр опирается на камерный язык (тогда cue в конец) или для multi-beat сцен с shot list и таймкодами.
Как работает joint audio-video?
Звук и видео генерируются в одном forward pass и синхронизированы по умолчанию. Управляй звуком через текст: «dialogue in English: '...'», «ambient: distant traffic», «Foley: footsteps on gravel». Если звук не описан, модель делает его по визуальной логике. Это уникальная фича Happy Horse — большинство видео-моделей генерируют звук отдельно или не генерируют вовсе.
Какие языки поддерживаются для lip-sync?
Семь: English, Mandarin, Cantonese, Japanese, Korean, German, French. С ультра-низким WER (word error rate). Указывай язык в DIALOGUE-блоке: «dialogue in Korean: '...'». Joint audio-video синхронизирует речь и движение губ автоматически. Внимание: визуал лучше рендерится на английском, даже если диалог на другом языке.
Когда использовать shot list с таймкодами?
Для multi-beat сцен — когда в одном клипе нужно несколько разных планов или действий. Формат: «Shot 1 (wide establishing, 0-1s): ...», «Shot 2 (close-up, 1-3s): ...». В тестах fal.ai shot-list разводит beat'ы корректно, а та же сцена в виде сплошной прозы коллапсирует. Для одного простого кадра shot-list избыточен — используй default 20-слов шаблон.
Какая длительность видео поддерживается?
5–8 секунд по умолчанию, до 12 секунд на Lite, до 15 секунд на платном тире. Нативный 1080p без апскейла. Время генерации ~10 секунд в среднем, ~38 секунд для 1080p на NVIDIA H100, ~2 секунды для 5-сек 256p превью. Соотношения сторон: 16:9, 9:16, 4:3, 21:9, 1:1.
Что лучше работает: T2V или I2V?
Обе модели делятся одними весами и работают одинаково сильно. I2V удобнее когда есть конкретный визуал-якорь (продуктовая фотография, портрет, концепт-арт) — тогда промпт описывает движение, а не пере-описывает картинку. T2V — для генерации сцены с нуля. Для I2V не нужно подробно описывать визуал; концентрируйся на движении и атмосфере.
Поддерживается ли Opten для Happy Horse?
Да, расширение Opten автоматически распознаёт Happy Horse 1.0 и оценивает промпты по структуре, описанной выше: проверяет соответствие default 20-слов шаблону, отсутствие эпитетов-хеджей и quality-бустеров, наличие физических деталей вместо абстрактной эмоции, английский язык для визуала. Одним кликом можно получить rewrite в правильной структуре.

Похожие модели

Готов писать промпты для Happy Horse 1.0 в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время