MiniMax Hailuo 2.3: как писать промпты, которые модель понимает
MiniMax · Обновлено:
MiniMax Hailuo 2.3 — флагман видеомоделей MiniMax: T2V и I2V до 1080P, 25fps, поддержка bracket camera syntax `[Push in]`. Промпт пишется как режиссёрские заметки на естественном языке, не теги. Английский рекомендован, китайский — родной язык обучения; оптимальная длина 40-60 слов.
Что умеет Hailuo 2.3
Hailuo 2.3 — более новая и точная модель по сравнению с 02. Сильные стороны: танцевальные хореографии и полноценный экшен с реалистичными движениями тела (флипы, прыжки, боевые сцены), микро-выражения лица с улучшенной эмоциональной точностью, разнообразные арт-стили (аниме, тушь, game CG, реализм, акварель, claymation), точный кинематографический контроль через bracket camera syntax.
Есть Fast-версия — ~2× быстрее и на ~50% дешевле стандартной, но только I2V (без T2V). Поддерживает 768P (default) и 1080P, 25fps. Длительность 6с или 10с на 768P; 6с на 1080P. Максимум промпта — 2000 символов; есть встроенный prompt_optimizer.
- T2V + I2V, Fast-версия только I2V
- Разрешения: 768P (default), 1080P, 25fps
- 15 bracket camera commands, до 3 одновременных
- Сильные стороны: танец, экшен, микро-выражения, разнообразие стилей
- prompt_optimizer (default true) — LLM улучшает промпт
Структура промпта
Идеальная длина 40-60 слов, максимум 2000 символов. Стиль — режиссёрские заметки на естественном языке, НЕ теги.
Формула: [Камера + движение] + [Субъект + описание] + [Действие в present tense] + [Стиль и атмосфера] + [Эмоциональные маркеры].
Пример: «[Tracking shot] A young dancer in a flowing crimson dress spins gracefully across a moonlit rooftop, hair catching the breeze, arms extended. Cinematic, dreamlike atmosphere, soft warm rim light, serene yet powerful emotional tone.» Конкретные глаголы в настоящем времени («spins», «catching», «extended»), bracket camera command в начале, эмоциональный якорь в конце.
Bracket Camera Syntax — 15 команд
Главная фича MiniMax-семейства — точный кинематографический контроль через квадратные скобки. Доступно 15 команд:
`[Truck left]`, `[Truck right]` — горизонтальное перемещение; `[Pan left]`, `[Pan right]`, `[Pan up]`, `[Pan down]` — панорама; `[Push in]`, `[Pull out]` — наезд/отъезд; `[Pedestal up]`, `[Pedestal down]` — подъём/опускание камеры; `[Tilt up]`, `[Tilt down]` — наклон; `[Zoom in]`, `[Zoom out]` — зум; `[Shake]` — тряска; `[Tracking shot]` — следящий кадр; `[Static shot]` — статика.
Комбинирование: `[Pan left,Pedestal up]` — максимум 3 одновременных команды. Последовательность через связующие слова: «...[Push in], then...[Pull out]». Это фича модели, а не ошибка форматирования. Без bracket syntax камера ведёт себя непредсказуемо.
Prompt Optimizer и его роль
У Hailuo 2.3 есть параметр `prompt_optimizer` (по умолчанию true) — LLM от MiniMax переписывает/улучшает твой промпт перед генерацией. Это объясняет, почему короткие нечёткие промпты часто дают приемлемый результат — оптимизатор дополняет описание.
Когда оставить `true`: для случайных идей, быстрых тестов, общих задач. LLM добавит camera commands, атмосферные детали, эмоциональные маркеры.
Когда поставить `false`: для production-промптов, точного следования брифу, A/B-тестов. Модель будет следовать твоему промпту буквально, без вмешательства LLM. Если ты прописал детальный промпт с bracket syntax и эмоциональным тоном — выключай оптимизатор, чтобы он не «переписал» твою структуру.
Типичные ошибки
1. Tag-based промпты
«cyberpunk, rain, neon, 4k, masterpiece» — Hailuo 2.3 обучена на нарративных описаниях, не на тегах. Tag soup даёт обобщённый результат с генерик динамикой. Пиши режиссёрские заметки с глаголами в present tense и bracket camera commands. Это удваивает качество на тех же словах.
2. Quality boosters вызывают перенасыщение
«ultra-detailed, 8k, masterpiece, best quality» вызывают чрезмерную насыщенность и контраст в финальном видео. Hailuo 2.3 чувствительна к таким токенам — они смещают цветокор и могут ломать физику движений. Качество определяется конкретностью описания, не магическими словами.
3. Описание изображения в I2V
В I2V-режиме входное изображение определяет содержимое сцены. Промпт должен описывать только ДВИЖЕНИЕ и ИЗМЕНЕНИЯ. «Beautiful girl in red dress walks» при загруженном фото девушки в красном платье — пустые токены до «walks». Пиши короче, фокусируйся на движении и камере.
4. Hailuo 2.3 Fast для T2V
Fast-версия 2.3 поддерживает ТОЛЬКО I2V — без T2V. Если хочешь сгенерировать видео из текста без референсного изображения, используй стандартную 2.3 или 02. Это известная путаница: Fast выглядит как «облегчённая» версия, но это другой класс — text-only промпты в неё не работают.
5. Более 3 bracket commands одновременно
MiniMax поддерживает комбинирование (`[Pan left,Pedestal up]`), но максимум 3 одновременных. `[Pan left,Pedestal up,Push in,Tilt up]` — перегрузка камерных инструкций, модель не разрешит конфликт и даст хаотичный результат. Для нескольких движений — последовательность через «then»: «[Pan left], then [Push in]».
Примеры до/после
Пример 1
Было
девушка танцует в красном платье
Стало
[Tracking shot] A young woman in a flowing crimson silk dress performs a contemporary pirouette on a moonlit rooftop, arms extended, hair catching the breeze. Cinematic atmosphere with soft warm rim light from a single streetlamp, dreamlike serene tone, dynamic yet graceful tempo.
Bracket camera command `[Tracking shot]`, конкретный танцевальный термин (contemporary pirouette), физический маркер (arms extended), эмоциональный тон. Длина в целевом диапазоне 40-60 слов.
Пример 2
Было
крутой боевой кадр
Стало
[Pan right,Push in] A male martial artist in a black gi delivers a roundhouse kick mid-air on a dimly lit dojo, body fully rotated, focused intense expression. Cinematic action aesthetic, deep shadow contrast, tense and explosive emotional tone, realistic body mechanics.
Комбинированная камерная команда (pan + push in одновременно), конкретное боевое действие (roundhouse kick), физический маркер (body fully rotated), микро-выражение (focused intense expression).
Пример 3
Было
аниме девушка под дождём
Стало
[Static shot] An anime-style young woman with long black hair stands under a transparent umbrella on a neon-lit Tokyo street, looking up at the rain with a quiet melancholic smile. Soft watercolor textures, cool blue and magenta neon reflections on wet pavement, dreamy nostalgic tone.
Указан арт-стиль (anime-style + watercolor textures), микро-выражение (quiet melancholic smile), статичная камера для портретного фокуса. Без указания «аниме» 2.3 может уйти в реализм.