Video

PixVerse V6: как писать промпты, которые модель понимает

PixVerse · Обновлено:

PixVerse V6 — видеомодель PixVerse с нативной генерацией аудио, multi-shot режимом и 20+ cinematic lens controls. Поддерживает T2V и I2V, до 15 секунд при 1080p, негативные промпты и кастомные seed-значения. Лучше всего реагирует на буквальные физические описания, не на метафоры.

Что нового в V6

Главная фича V6 — нативная генерация аудио за один проход: фоновая музыка, SFX, эмбиент, даже диалоги. Аудио описывается явно в промпте («Loud engine roaring sound. Tires hitting gravel sound.») и генерируется синхронно с видео.

Вторая фича — multi-shot engine: короткометражки с нативными переходами и консистентностью персонажей. Третья — 20+ cinematic lens controls (focal length, aperture, DoF, lens distortion, chromatic aberration, vignetting) как продакшн-параметры, не как prompt hints. И четвёртая — до 15 секунд при 1080p в одной генерации против 5–10 у предыдущих версий.

  • Нативное аудио (BGM, SFX, диалоги, эмбиент) за один проход
  • Multi-shot engine с переходами и character consistency
  • 20+ cinematic lens controls как параметры, не текст
  • До 15 секунд при 1080p (5–8 сек на V5.5)
  • Поддержка негативных промптов и custom seed

Структура промпта

PixVerse понимает буквально — никаких метафор и абстракций. Базовая формула: [Subject] + [Action] + [Environment] + [Camera movement] + [Audio description].

Описывай только что ВИДНО и СЛЫШНО. «Tears of the sky» — мусор; «Heavy rain falling on pavement» — рабочий промпт. Это особенно важно для V6, потому что новые lens controls работают только если модель чётко понимает физическую сцену.

Длина промпта — от 2 до 2 048 символов. Параметр `thinking_type` (enabled/disabled/auto) включает автооптимизацию промпта — на коротких промптах enabled может заметно улучшить результат.

Аудио в промпте

V6 — одна из первых публичных видеомоделей с нативным аудио. Описывай звуки явно в тексте промпта: «Loud engine roaring sound. Tires hitting gravel sound. Wind rushing past.»

Поддерживаемые категории: SFX (engine, footsteps, splashes, impacts), эмбиент (forest, urban street, ocean waves), BGM (упрощённо — «soft piano music», «driving bass beat»), диалоги в кавычках с lip-sync. Чем конкретнее звук, тем лучше — «soft synth pad» вместо «nice music».

Аудио описывается отдельным блоком в промпте, обычно после визуальной части. Это не «лишний текст», как может показаться — это рабочая фича V6, без неё в кадре будет тишина.

Style presets и lens controls

Стили задаются параметром, не в промпте: `anime`, `3d_animation`, `clay`, `comic`, `cyberpunk`. Если написать в тексте «in anime style» — будет хуже, чем выбрать preset через параметр. Каждый preset поддерживает lip-sync для диалоговых сцен.

Cinematic lens controls тоже через параметры: focal length (24mm wide, 50mm normal, 85mm portrait), aperture (f/1.4 shallow DoF, f/8 deep), lens distortion, chromatic aberration, vignetting. Это не prompt hints, а продакшн-настройки, как на реальной камере. На V5.5 этих контроллов нет, всё нужно было прописывать в тексте — на V6 это вынесено отдельно.

Типичные ошибки

  1. 1. Метафоры вместо буквальных описаний

    PixVerse понимает буквально. «Tears of the sky» модель попытается интерпретировать дословно — может появиться плачущее небо или странный артефакт. «Heavy rain falling on pavement» даст ровно то, что нужно. Описывай физически: что движется, как именно, в какой среде.

  2. 2. Стили в тексте промпта вместо параметра

    «In anime style» или «as a clay animation» в тексте работает заметно хуже, чем выбор соответствующего style preset через параметр (`anime`, `clay`, `3d_animation`, `comic`, `cyberpunk`). Стили вынесены в отдельное поле специально — используй его, а текст оставь для содержимого сцены.

  3. 3. Отсутствие аудио-описания на V6

    V6 умеет нативно генерировать аудио, но только если ты его описал в промпте. Без аудио-блока кадр будет тихим. Минимум — упомянуть ambient («urban street ambient»). Максимум — конкретные SFX, BGM и диалоги в кавычках. Это рабочая фича модели, а не лишний текст.

  4. 4. 1080p × 10 секунд на V5.5

    На V5.5 при 1080p максимум 5–8 секунд; 10 секунд возможны только в 720p. На V6 это снято — до 15 секунд при 1080p за один проход. Если генерация на V5.5 проваливается с запросом «1080p, 10s», переключайся на V6 или соглашайся на 720p.

  5. 5. Забыть character descriptors в multi-shot

    В multi-shot режиме модель легко теряет персонажа между шотами, если в каждом не повторять ключевые дескрипторы. «The woman in red coat» в шоте 1, «she» в шоте 2 — drift почти гарантирован. Повторяй короткий descriptor («the woman in red coat») в каждом шоте — это удерживает identity.

Примеры до/после

Пример 1

Было

красивое кинематографичное видео машины в городе ночью

Стало

A black sports car drives through a wet downtown street at night. Neon signs reflect on the asphalt. Camera tracks the car from a low angle, smooth dolly motion. Loud engine roaring sound, tires hissing on wet pavement, distant urban ambient. 50mm focal length, shallow DoF.

Буквальные физические детали (wet street, neon reflections), явное аудио (engine, tires, ambient), отдельный блок lens (50mm, shallow DoF). V5.5 потребовал бы прописать «50mm shallow depth of field» в текст; V6 принимает это как параметр.

Пример 2

Было

анимешный клип где девушка плачет от грусти, эмоциональная музыка

Стало

A young woman sits on a windowsill, soft tears running down her cheeks. Rain on the glass behind her, grey overcast light. Camera slowly pushes in from medium shot to close-up. Soft piano music, gentle rain ambient. Style preset: anime (set via parameter, not in prompt).

Стиль anime вынесен в параметр, не в текст. Эмоция передана через физические детали (tears, posture, rain), а не через абстрактное «sad». Аудио описано отдельным блоком.

Пример 3

Было

продуктовый ролик кроссовок на улице

Стало

Shot 1: Close-up of running shoes on wet asphalt, water splashing as the foot lifts off. Shot 2: Medium tracking shot, the runner sprints down an empty street at sunrise. Shot 3: Wide shot, the runner crosses the frame, golden light flaring through buildings. Footsteps slapping pavement, rhythmic breath, upbeat electronic music. Negative prompt: blurry, watermark.

Multi-shot структура (3 шота, явные переходы), повтор «runner» в каждом для consistency, аудио отдельным блоком, негативный промпт вынесен отдельно. Это сильная сторона именно V6.

Частые вопросы

Чем PixVerse V6 отличается от V5.5?
Четыре главных отличия: нативная генерация аудио (BGM, SFX, диалоги) за один проход, до 15 секунд при 1080p против 5–8 на V5.5, 20+ cinematic lens controls как параметры, и multi-shot engine с нативными переходами. V5.5 остаётся актуальным для коротких клипов с эффектами (46 шаблонов effects), но для серьёзного контента V6 — однозначный апгрейд.
Нужно ли описывать аудио в промпте, если хочется тихий клип?
Да, лучше явно. Если аудио не описано, V6 либо генерирует тишину, либо добавляет случайный ambient — это непредсказуемо. Для тихого клипа можно написать «silent» или указать только тонкий ambient: «very faint room tone». Контролируемая тишина лучше случайной — это вообще главное правило работы с аудио в V6.
Поддерживаются ли негативные промпты?
Да, это документированная фича V6 (и V5.5). Негативный промпт — отдельное поле или API-параметр. Формат: запятая-разделённый список того, что исключить: «blurry, distorted hands, extra limbs, watermark, text». В отличие от Runway Gen-4/4.5, где негативы не работают, в PixVerse это рабочий инструмент.
Как сохранить персонажа между кадрами в multi-shot?
Два инструмента: повторение character descriptors в каждом шоте и multi-image reference (до 3 изображений персонажа на вход). Лучшая практика — комбинировать оба: загрузить 2–3 фото персонажа как reference и в каждом текстовом шоте повторять короткое описание («the woman in red coat»). Это даёт максимальную консистентность.
Что делать с параметром thinking_type?
Три значения: `enabled` (модель автоматически оптимизирует промпт перед генерацией), `disabled` (промпт идёт как написан), `auto` (модель решает по сложности промпта). Для коротких промптов 10–20 слов `enabled` даёт заметное улучшение качества. Для длинных детальных промптов 100+ слов `disabled` сохраняет твой контроль. `auto` — разумный дефолт.
Какой длины должен быть промпт?
От 2 до 2 048 символов технически. На практике 50–200 слов — оптимально для большинства сцен. Короткие промпты (10–20 слов) лучше комбинировать с `thinking_type=enabled`. Длинные multi-shot промпты могут быть 300+ слов с тремя блоками шотов и аудио-описанием — это нормально.
Поддерживается ли Opten для PixVerse V6?
Да, расширение Opten распознаёт PixVerse внутри pixverse.ai и оценивает промпты по структуре, специфичной для V6: проверяет наличие аудио-описания, буквальность физических описаний, использование style preset как параметра (а не в тексте), повторение character descriptors в multi-shot и адекватность негативного промпта.

Похожие модели

Готов писать промпты для PixVerse V6 (V5.5) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время