Midjourney Video: как писать промпты, которые модель понимает
MidJourney · Обновлено:
Midjourney Video — Image-to-Video модель Midjourney для короткой анимации статичных изображений. Чистый Text-to-Video не поддерживается: референсное изображение обязательно. Промпт описывает что движется и как движется камера, а не внешность субъекта — это уже задано картинкой. Английский — основной язык, оптимальная длина 20-60 слов.
Что умеет Midjourney Video
Midjourney Video — новая модель Midjourney, специализированная на анимации одного статичного изображения в короткий клип. Это принципиально другой инструмент по сравнению с Midjourney V7 или Niji: там модель генерирует кадр с нуля по тексту, здесь — оживляет уже готовый кадр.
Композиция, цветовая палитра, стиль и внешность субъекта определяются референсным изображением. Промпт задаёт движение субъекта (поворот головы, ходьба, развевающиеся волосы), движение камеры (push in, pan, orbit, static) и атмосферу (slowly, dramatic, peaceful). Короткие клипы, оптимальная длина промпта 20-60 слов, документация ограничена.
- Только Image-to-Video — нужен референсный кадр
- Промпт описывает движение, не внешность
- Камера: push in, pan, orbit, static, tracking
- Оптимально 20-60 слов; 1-3 предложения
- Изображение определяет стартовый кадр и стиль
Структура промпта
Оптимальная формула: [Движение/действие субъекта] + [Движение камеры] + [Темп/Настроение].
Пример: «The woman slowly turns her head toward the camera, wind gently blowing her hair, slow dolly push in, soft ambient light». Главное — не дублируй то, что уже видно на картинке. Если на фото девушка в красной куртке — не пиши «girl in red jacket». Это пустые токены, которые могут конфликтовать с тем, что модель уже считала с изображения.
Краткость и фокус на движении дают лучший результат, чем длинные описания. Одно основное движение — не загружай тремя действиями одновременно.
Движения субъекта
Конкретное физическое действие даёт предсказуемую анимацию: «turns her head», «walks forward», «waves ripple», «hair blowing in the wind», «dress flowing», «leaves falling». Абстрактные глаголы вроде «something happens» или «she does something» дают хаотичный результат.
Для портретов работают мелкие движения — моргание (blinks), лёгкий поворот головы (slight head turn), улыбка (subtle smile). Для природы — ветер, вода, облака, огонь. Для объектов — вращение, парение, падение, растворение. Чем точнее глагол, тем меньше артефактов на границах движения.
Движения камеры
Без указания камеры результат часто получается статичным или хаотичным — модель сама выбирает. Базовые камерные движения: push in, pull out, dolly in, dolly out, zoom in, zoom out (наезд/отъезд); pan left, pan right, pan up, pan down (панорама); tracking shot, follow shot (трекинг); orbit, rotating around (орбита); crane up, crane down (подъём/спуск); static camera, locked off (статика).
Темп камеры тоже важен — «slowly» и «gently» дают кинематографичный результат, «suddenly» и «rapidly» — динамичный, иногда с артефактами. Не комбинируй конфликтующие движения: «zoom in and zoom out simultaneously» или «pan + orbit + tracking одновременно».
Типичные ошибки
1. Описание внешности субъекта
Внешность уже задана референсом — повторное описание бесполезно и может конфликтовать с тем, что модель видит. «Beautiful young woman with blonde hair in red dress walks forward» — пустые токены до «walks forward». Пиши только движение и камеру.
2. Попытка text-to-video без изображения
Midjourney Video не поддерживает чистый T2V. Модель требует референсный кадр. Если ты пишешь только текст без загрузки изображения, генерация невозможна. Это не баг промпта, а архитектурное ограничение версии.
3. Слишком длинный промпт (>60 слов)
Модель теряет фокус на длинных промптах: движения становятся хаотичными, могут появляться артефакты. Оптимально 1-3 предложения, 20-60 слов. Если описание не помещается — сократи до одного основного движения субъекта + одного движения камеры + темпа.
4. Конфликтующие движения
«Walks left while running right», «zoom in and zoom out simultaneously», «pan + orbit + tracking одновременно» — модель не может разрешить конфликт и даёт хаотичный результат с дрожанием. Одно основное движение субъекта + одно движение камеры. Если нужно несколько камерных действий — описывай последовательно, через «then».
5. Спам качества и tag soup
«cinematic, masterpiece, 8K, ultra detailed, best quality, trending on artstation» — мусор, который засоряет промпт и не влияет на результат. Качество видео определяется качеством референса и точностью описания движения. Лучше потратить токены на конкретный глагол и конкретное камерное движение.
Примеры до/после
Пример 1
Было
красивая девушка идёт по улице
Стало
The woman slowly walks forward toward the camera, hair gently swaying with each step. Slow dolly push in, shallow depth of field. Soft cinematic atmosphere, peaceful tempo.
Внешность убрана — она уже на референсе. Описано только: движение субъекта, движение камеры, темп. Один основной экшен (ходьба) + одно движение камеры (push in).
Пример 2
Было
природа красиво
Стало
Tall grass and wildflowers gently sway in the wind, soft afternoon light filtering through the trees. Slow lateral tracking shot from left to right. Peaceful, dreamlike atmosphere, gradual light shifting from warm to cool.
«Природа красиво» — абстрактно. Здесь конкретное движение элементов среды (трава, цветы), конкретное движение камеры (lateral tracking), темп (slow) и атмосферный сдвиг света.
Пример 3
Было
продукт крутится
Стало
The bottle slowly rotates 360 degrees on its axis, catching the studio light on its glossy surface. Static camera, locked off frame. Smooth even tempo, commercial product showcase aesthetic.
Указано конкретное движение (rotation 360°), направление (on its axis), камера (static locked off) и темп (smooth even). Без камеры модель могла бы добавить случайный pan и испортить product shot.