Happy Horse 1.0: как писать промпты, которые модель понимает
Alibaba · Обновлено:
Happy Horse 1.0 (快乐小马) — video-модель от Alibaba ATH AI Innovation Unit, 15B параметров, unified single-stream Transformer. Генерирует 5–8 секунд 1080p за ~10 секунд на H100. Joint audio-video в одном forward pass, lip-sync на 7 языках, open source. Главное правило промптинга — brevity wins, ~20 слов на простой кадр.
Что умеет Happy Horse 1.0
Happy Horse — open-source модель с топ-1 рейтингом на Artificial Analysis Video Arena (T2V Elo 1333, I2V Elo 1392). T2I и I2V из одних и тех же весов, нативные 1080p без апскейла.
Kлючевая фича — joint audio-video: видео и звук генерируются в одном forward pass и синхронизированы по умолчанию. Lip-sync на 7 языках (English, Mandarin, Cantonese, Japanese, Korean, German, French) с ультра-низким WER. До 12 multimodal входов: текст + reference images + reference videos + audio references. Длительность 5–8 секунд по умолчанию, до 15 на платном тире.
- 15B параметров, unified single-stream Transformer
- Нативный 1080p без апскейла, длительность 5–8 секунд
- Joint audio-video в одном forward pass
- Lip-sync на 7 языках с ультра-низким WER
- Топ-1 на Artificial Analysis Video Arena (T2V и I2V)
Структура промпта и правило 20 слов
Default-шаблон закрывает 80% задач: «[Subject] [does action] in [setting], [time of day], [one atmosphere or camera cue]». Примерно 20 слов.
Примеры рабочих промптов: «A young woman in a red coat walks down a wet city street at night, neon reflections». «A 1965 cherry-red Mustang convertible drives along a winding California coastal highway at midday». «An orange tabby cat coiled on a velvet sofa leaps to a tall oak bookshelf».
Золотое правило: brevity wins. У модели конечный «бюджет внимания», и каждое лишнее слово отнимает мощность у рендеринга. Длинные промпты буквально ухудшают результат: лица плывут, кисти теряют геометрию, походка уплощается.
Когда уместен длинный промпт
Длинный промпт оправдан в одном случае — когда кадр опирается на язык камеры (Steadicam push, slow dolly-in, helicopter aerial). Камерный cue ставь в конец промпта — там он получает максимальный вес.
Для multi-beat сцен используй shot list с таймкодами: «Shot 1 (wide establishing, 0-1s): ...», «Shot 2 (mid tracking, 1-4s): ...», «Shot 3 (slow push-in close, 4-5s): ...». В тестах fal.ai shot-list с таймкодами разводит beat'ы корректно, а та же сцена в виде сплошной прозы коллапсирует в одно размытое движение.
Markdown секции (## Subject, ## Action, ## Setting, ## Camera, ## Lighting, ## Mood) — для single-take с множеством осей контроля. Использовать ТОЛЬКО когда есть контент для большинства секций. Пустые заголовки вредят.
Сильные стороны и слабые
Сильные стороны (используйте их): камерные движения (Steadicam push, slow dolly-in, helicopter aerial — модель необычно хорошо понимает английскую камерную лексику); атмосферное освещение (blue hour alley, neon noir, single hard top-down key с deep falloff, warm amber backlight + cool blue ambient); машины, металл, хром, отражения; ткани и волосы на ветру (secondary motion удерживается всю длительность); огонь и искры с правильной теплотой.
Слабые стороны: длинные human action sequences с лицами в фокусе. Сторителлинг-проза вместо production notes (модель исполняет инструкции, не повествование). Эмоция как абстракция («sad woman», «happy moment») — переводи в физические детали: микро-выражения, направление взгляда, темп дыхания, паузы.
Типичные ошибки
1. Слишком длинный промпт для простой сцены
Главный антипаттерн модели. Длинные промпты для простых сцен буквально ухудшают результат: лица плывут к усреднённому образу, кисти теряют геометрию, походка уплощается. ~20 слов — золотая середина. Длиннее — только если оправдано камерным языком или multi-beat сценой.
2. Эпитеты-хеджи и quality-бустеры
«Beautiful, stunning, gorgeous, masterpiece, epic, breathtaking, insane detail, ultra detailed, hyperrealistic» — съедают токенный бюджет и тянут к average-look. Заменяй на конкретику: «overcast daylight, wet asphalt», «neon pink and cyan reflections», «35mm telephoto, shallow depth of field».
3. Эмоция как абстракция
«Sad woman thinking about her past», «happy moment», «emotional scene» — Happy Horse не понимает эмоцию как концепцию. Переводи в физические детали: «close-up of a young woman standing still, soft wind moving her hair, neutral expression, slow blink, shallow depth of field». Микро-выражения, направление взгляда, темп дыхания.
4. Mandarin для визуала
Даже несмотря на китайское происхождение модели от Alibaba, английский даёт лучший рендеринг визуала. Mandarin используй ТОЛЬКО в DIALOGUE-блоке для китайского lip-sync. Все production notes (subject, action, setting, camera, lighting) — на английском.
5. Booru-теги, JSON, weighted parentheses
Запятые с ключевиками без предложений (Booru-стиль), JSON-объекты и weighted parentheses `(keyword:1.2)` (синтаксис Stable Diffusion) — заметно проигрывают английской прозе. Happy Horse обучен на естественном языке. Пиши предложениями и production notes.
Примеры до/после
Пример 1
Было
A beautiful gorgeous stunning woman in a magnificent red coat masterpiece walking elegantly down a breathtaking wet city street at night with insane neon reflections, ultra detailed, hyperrealistic, 8k cinematography
Стало
A young woman in a red coat walks down a wet city street at night, neon reflections, 35mm telephoto, slow tracking dolly.
Anti-slop правило: эпитеты-хеджи (beautiful, gorgeous, stunning, masterpiece, ultra detailed) съедают токенный бюджет и тянут к average-look. ~20 слов с камерным cue в конце — sweet spot.
Пример 2
Было
happy man walking and feeling good about life in a nice park
Стало
A young man walks through a sunlit park in autumn, slow exhale visible in cool air, soft smile, hand brushing fallen leaves, golden hour, slow side tracking.
Эмоция как абстракция («happy», «feeling good») — модель не понимает. Перевод в физические детали (slow exhale, soft smile, hand brushing leaves) даёт видимое движение.
Пример 3
Было
A complex cinematic scene where a detective enters the dimly lit room, looks around suspiciously, finds a clue on the table, picks it up, examines it carefully, and then walks out the door
Стало
Shot 1 (wide establishing, 0-1s): A detective in a wool coat enters a dim hotel room; single hard top-down key, deep falloff to black. Shot 2 (close-up, 1-3s): His hand picks up a folded note from the wood desk; warm amber practical light. Shot 3 (medium tracking, 3-5s): He turns and walks toward the door; slow side tracking, neon glow through the blinds.
Сплошная проза с несколькими действиями коллапсирует в одно размытое движение. Shot list с таймкодами разводит beat'ы корректно.