Video

Midjourney Video: как писать промпты, которые модель понимает

MidJourney · Обновлено:

Midjourney Video — Image-to-Video модель Midjourney для короткой анимации статичных изображений. Чистый Text-to-Video не поддерживается: референсное изображение обязательно. Промпт описывает что движется и как движется камера, а не внешность субъекта — это уже задано картинкой. Английский — основной язык, оптимальная длина 20-60 слов.

Что умеет Midjourney Video

Midjourney Video — новая модель Midjourney, специализированная на анимации одного статичного изображения в короткий клип. Это принципиально другой инструмент по сравнению с Midjourney V7 или Niji: там модель генерирует кадр с нуля по тексту, здесь — оживляет уже готовый кадр.

Композиция, цветовая палитра, стиль и внешность субъекта определяются референсным изображением. Промпт задаёт движение субъекта (поворот головы, ходьба, развевающиеся волосы), движение камеры (push in, pan, orbit, static) и атмосферу (slowly, dramatic, peaceful). Короткие клипы, оптимальная длина промпта 20-60 слов, документация ограничена.

  • Только Image-to-Video — нужен референсный кадр
  • Промпт описывает движение, не внешность
  • Камера: push in, pan, orbit, static, tracking
  • Оптимально 20-60 слов; 1-3 предложения
  • Изображение определяет стартовый кадр и стиль

Структура промпта

Оптимальная формула: [Движение/действие субъекта] + [Движение камеры] + [Темп/Настроение].

Пример: «The woman slowly turns her head toward the camera, wind gently blowing her hair, slow dolly push in, soft ambient light». Главное — не дублируй то, что уже видно на картинке. Если на фото девушка в красной куртке — не пиши «girl in red jacket». Это пустые токены, которые могут конфликтовать с тем, что модель уже считала с изображения.

Краткость и фокус на движении дают лучший результат, чем длинные описания. Одно основное движение — не загружай тремя действиями одновременно.

Движения субъекта

Конкретное физическое действие даёт предсказуемую анимацию: «turns her head», «walks forward», «waves ripple», «hair blowing in the wind», «dress flowing», «leaves falling». Абстрактные глаголы вроде «something happens» или «she does something» дают хаотичный результат.

Для портретов работают мелкие движения — моргание (blinks), лёгкий поворот головы (slight head turn), улыбка (subtle smile). Для природы — ветер, вода, облака, огонь. Для объектов — вращение, парение, падение, растворение. Чем точнее глагол, тем меньше артефактов на границах движения.

Движения камеры

Без указания камеры результат часто получается статичным или хаотичным — модель сама выбирает. Базовые камерные движения: push in, pull out, dolly in, dolly out, zoom in, zoom out (наезд/отъезд); pan left, pan right, pan up, pan down (панорама); tracking shot, follow shot (трекинг); orbit, rotating around (орбита); crane up, crane down (подъём/спуск); static camera, locked off (статика).

Темп камеры тоже важен — «slowly» и «gently» дают кинематографичный результат, «suddenly» и «rapidly» — динамичный, иногда с артефактами. Не комбинируй конфликтующие движения: «zoom in and zoom out simultaneously» или «pan + orbit + tracking одновременно».

Типичные ошибки

  1. 1. Описание внешности субъекта

    Внешность уже задана референсом — повторное описание бесполезно и может конфликтовать с тем, что модель видит. «Beautiful young woman with blonde hair in red dress walks forward» — пустые токены до «walks forward». Пиши только движение и камеру.

  2. 2. Попытка text-to-video без изображения

    Midjourney Video не поддерживает чистый T2V. Модель требует референсный кадр. Если ты пишешь только текст без загрузки изображения, генерация невозможна. Это не баг промпта, а архитектурное ограничение версии.

  3. 3. Слишком длинный промпт (>60 слов)

    Модель теряет фокус на длинных промптах: движения становятся хаотичными, могут появляться артефакты. Оптимально 1-3 предложения, 20-60 слов. Если описание не помещается — сократи до одного основного движения субъекта + одного движения камеры + темпа.

  4. 4. Конфликтующие движения

    «Walks left while running right», «zoom in and zoom out simultaneously», «pan + orbit + tracking одновременно» — модель не может разрешить конфликт и даёт хаотичный результат с дрожанием. Одно основное движение субъекта + одно движение камеры. Если нужно несколько камерных действий — описывай последовательно, через «then».

  5. 5. Спам качества и tag soup

    «cinematic, masterpiece, 8K, ultra detailed, best quality, trending on artstation» — мусор, который засоряет промпт и не влияет на результат. Качество видео определяется качеством референса и точностью описания движения. Лучше потратить токены на конкретный глагол и конкретное камерное движение.

Примеры до/после

Пример 1

Было

красивая девушка идёт по улице

Стало

The woman slowly walks forward toward the camera, hair gently swaying with each step. Slow dolly push in, shallow depth of field. Soft cinematic atmosphere, peaceful tempo.

Внешность убрана — она уже на референсе. Описано только: движение субъекта, движение камеры, темп. Один основной экшен (ходьба) + одно движение камеры (push in).

Пример 2

Было

природа красиво

Стало

Tall grass and wildflowers gently sway in the wind, soft afternoon light filtering through the trees. Slow lateral tracking shot from left to right. Peaceful, dreamlike atmosphere, gradual light shifting from warm to cool.

«Природа красиво» — абстрактно. Здесь конкретное движение элементов среды (трава, цветы), конкретное движение камеры (lateral tracking), темп (slow) и атмосферный сдвиг света.

Пример 3

Было

продукт крутится

Стало

The bottle slowly rotates 360 degrees on its axis, catching the studio light on its glossy surface. Static camera, locked off frame. Smooth even tempo, commercial product showcase aesthetic.

Указано конкретное движение (rotation 360°), направление (on its axis), камера (static locked off) и темп (smooth even). Без камеры модель могла бы добавить случайный pan и испортить product shot.

Частые вопросы

Чем Midjourney Video отличается от Midjourney V7?
V7 — image-генератор, который рисует кадр с нуля по тексту, с фирменным синтаксисом (`--ar`, `--style`, `--chaos`). Midjourney Video — отдельная модель, оживляющая готовое изображение. Параметры V7 здесь не работают: формат задаётся референсом, стиль задан референсом, промпт описывает только движение. Это два разных инструмента под одной маркой.
Можно ли сгенерировать видео только по тексту?
Нет, Midjourney Video — строго Image-to-Video. Референсное изображение обязательно. Если нужно T2V — сначала сгенерируй кадр в V7 или Niji (или в другой image-модели), затем подай его в Midjourney Video с промптом на движение. Это двухэтапный пайплайн: image → video.
Зачем описывать движение камеры, если есть только субъект?
Без указания камеры модель сама выбирает поведение, и часто это либо статика, либо случайный pan, который ломает композицию. Явное «slow dolly push in» или «static camera» даёт предсказуемый кадр. Это особенно критично для product shots и портретов — без статичной камеры product может «уплыть» из кадра, а у портрета съедет ракурс.
Какая длина промпта оптимальна?
20-60 слов, 1-3 предложения. Слишком короткий промпт (<10 слов) даёт хаотичную анимацию — модель додумает. Слишком длинный (>60 слов) приводит к потере фокуса и артефактам. Формула «движение субъекта + движение камеры + темп» в 2-3 предложениях покрывает большинство сценариев.
Можно ли просить дождь, ветер или огонь, которых нет на фото?
Можно, но рискованно. Если на референсе нет дождя, и ты просишь «rain falls», модель попытается добавить дождь поверх существующей сцены — часто с артефактами на границах. Лучше подходит для атмосферных правок, согласованных с фото: если на фото облачно — «light wind picks up» сработает; если солнечный день — «sudden rain» даст странный результат.
Как добиться кинематографичного результата?
Стек: медленный темп (slowly, gently, gradually) + явное камерное движение (slow dolly push in, slow lateral tracking) + одна атмосферная деталь (soft ambient light, gentle wind, light shifting). Анти-стек — «suddenly», «rapidly», «explosive», «chaotic» — даёт динамику, но часто с дрожанием и артефактами. Для кино держи медленный темп и одно движение.
Поддерживается ли Opten для Midjourney Video?
Да, расширение Opten автоматически распознаёт Midjourney Video и оценивает промпты по структуре выше: проверяет, что есть референсное изображение, отсутствует описание внешности (она на картинке), указано конкретное движение субъекта и движение камеры, оптимальная длина 20-60 слов. Одним кликом получаешь rewrite в правильной формуле «движение + камера + темп».

Похожие модели

Готов писать промпты для MidJourney Video в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время