Seedance 2.0: как писать промпты, которые модель понимает
ByteDance · Обновлено:
Seedance 2.0 — флагманская видео-модель ByteDance на платформе 即梦 (Jimeng). Делает 4–15 секунд до 2K, принимает до 9 изображений, 3 видео и 3 аудио за запрос. Понимает @-референсы, тайминг-раскадровку по секундам и многослойные TRY CGI-блоки. На syntx.ai стандарт — английский, на нативной платформе лучше работает китайский.
Что нового в Seedance 2.0
По сравнению с 1.0 Pro / 1.5 Pro это поколенческий скачок. Длительность теперь не фиксированные 5 или 10 секунд, а свободные 4–15. Появилась полная мультимодальность — до 12 файлов за один запрос: изображения, видео и аудио одновременно. Заработал Consistency Control через @-референсы, звуковой контроль с клонированием голоса, продление видео через @Video и тайминг-раскадровка по секундам.
Ключевое архитектурное отличие: модель внутренне маршрутизирует именованные блоки (LOCATION, STYLE, STORY, CHARACTERS, SHOT STRUCTURE) в разные подсистемы — environment, identity, temporal planner. Поэтому «полотно текста» в одном параграфе даёт заметно худший результат, чем тот же текст, разнесённый по блокам.
- Длительность 4–15 секунд (вместо 5/10 в 1.0/1.5)
- До 9 изображений + 3 видео + 3 аудио за один запрос
- Полный Consistency Control через @image, @video, @audio
- Тайминг-раскадровка по секундам (0–4с / 4–10с / 10–15с)
- Звуковой контроль и клонирование голоса
TRY CGI-структура промпта
Канонический порядок блоков для cinematic-результата: [TITLE & ACT] → LOCATION → REFERENCE ASSIGNMENT → STYLE → STORY → CHARACTERS → SHOT STRUCTURE. Между блоками — ровно одна пустая строка, после двоеточия — пробел.
LOCATION — окружение, свет, погода, ключевые детали фона. STYLE — визуальный пресет («Ultra-photorealistic 4K live-action cinema», «Gritty film grain»). STORY — что происходит в этой конкретной генерации в 1–2 предложениях. CHARACTERS — участники, их текущее настроение, внешние особенности. SHOT STRUCTURE — раскадровка с актами.
Это работает сильнее, чем 6-шаговая формула «Субъект + Действие + Сцена + Камера + Стиль + Звук», потому что блоки попадают в правильные слои генерации.
@-референсы и identity preservation
Seedance 2.0 принимает референсы через `@`-префикс с привязкой к роли: @image1/@image2/@image3 для персонажей и сцен, @video1/@video2/@video3 для копирования камеры и ритма, @audio1/@audio2/@audio3 для голоса и SFX.
Критически важная фраза для персонажа — **Strict identity preservation. No morphing or style changes.** Без неё модель будет «улучшать» лицо между секундами, и persistent character ломается уже к 4-й секунде. Это совет №1 от TRY CGI.
Шаблон REFERENCE ASSIGNMENT: «Protagonist (@image1): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes.» Для аудио — «Audio (@audio1): Reference for realistic electrical buzzing and low machinery hum.»
Тайминг-раскадровка 0–15s
Для 10–15-секундных видео TRY CGI рекомендует 3 именованных акта с фиксированным каркасом полей: Action / Emotional Acting / Camera / Lighting / VFX / Audio Rule.
Канонический 15s шаблон — 0–4s [THE ENTRY] (завязка), 4–10s [THE REVELATION] (поворот, часто dolly-in или crash-zoom), 10–15s [ACTION RESPONSE] (развязка, handheld, motion blur). Для 8s — 2 акта ENTRY → PAYOFF, для 10s — SETUP → CLIMAX.
Главная ошибка — описывать эмоции общими словами («он испуган»). Правильный путь — микромимика: «jaw clenches, nostrils flare, pupils dilate, micro-tremor in the eyelids». Без этих микро-сигналов лицо выглядит как «маска» с правильной общей эмоцией, но мёртвое.
Типичные ошибки
1. Сплошной параграф вместо TRY CGI-блоков
«Полотно текста» из одного абзаца теряет 30–40% качества по сравнению с тем же текстом, разнесённым по LOCATION / STYLE / STORY / CHARACTERS / SHOT STRUCTURE. Модель внутренне маршрутизирует разные блоки в разные слои генерации, и без явных заголовков маршрутизация шумит.
2. @-референс на персонажа без identity preservation
Если есть @image1 на лицо, но нет фразы «Strict identity preservation. No morphing or style changes.» — модель «улучшит» лицо между секундами видео. К 4-й секунде персонаж уже не похож на референс. Эта фраза — совет №1 от TRY CGI для consistency.
3. Эмоции описаны общими словами
«Он испуган», «она счастлива», «удивление» дают на выходе мёртвое лицо-маску. Seedance 2.0 рендерит микромимику только когда её явно описать: «jaw clenches, pupils dilate, micro-tremor in the eyelids, nostrils flare». Минимум 2–3 микро-сигнала на каждый акт.
4. Эпическая музыка по умолчанию
Промпт «epic orchestral soundtrack», «dramatic background score» без явного запроса от пользователя превращает cinematic-сцену в трейлер. Дефолт — «No music. Diegetic sound design only.» Музыку добавлять только если пользователь явно её попросил.
5. Запрос на >15 секунд одним промптом
Лимит платформы — 15 секунд за один запуск. На «сделай 30-секундный ролик» модель либо обрежет, либо сломает темп. Правильный путь — сегментировать: первый промпт до 15с, второй сегмент через @video1 с «Extend @video1 by 15 seconds» и описанием нового контента.
Примеры до/после
Пример 1
Было
видео где собака бежит через площадь, динамично
Стало
LOCATION: Urban square at midday. Concrete pavement, wooden benches, food stalls, crowd in background. Bright natural sunlight with strong side rim light. STYLE: Ultra-photorealistic 4K cinematic action, gritty film grain, realistic muscle and fur, practical lighting. Gritty realism like a Nolan action film. No cartoonish AI look. STORY: A dog in a black collar makes a high-speed escape across the square, demonstrating athletic jumps between people and obstacles. CHARACTERS: Dog, muscular and energetic, in a black collar. Focused eyes, pupils dilated with adrenaline, fur swept back by speed. SHOT STRUCTURE (10 SEC TOTAL): 0-4s — [SETUP] Action: Dog launches from a crouch, muscles tensed. Emotional Acting: Concentration. Pupils dilated, ears pinned back, nostrils flared. Camera: Low angle dolly tracking behind the dog. Audio Rule: Diegetic only — claws on concrete, panting. 4-10s — [CLIMAX] Action: Dog vaults a bench, weaves through a crowd. Camera: Side tracking, motion blur on background. Audio Rule: Footsteps, breath, distant crowd. No music. No music. Diegetic sound design only. Grounded realism, gritty film grain, no AI aesthetic.
Главное отличие: блочная TRY CGI-структура вместо одного предложения. Каждый блок попадает в свой слой генерации (environment, identity, temporal planner), а финальный анти-AI-якорь спасает от пластикового рендера.
Пример 2
Было
герой смотрит на экран компьютера и понимает что случилось
Стало
LOCATION: Dim server room, racks of blinking LEDs, smoke from a fried capacitor, single overhead bulb. REFERENCE ASSIGNMENT: - Protagonist (@image1): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes. STYLE: Ultra-photorealistic 4K cinematic, anamorphic lens flare, gritty film grain. The look of a modern tech thriller, not animation. STORY: Character realizes the breach is live, in real time, on the terminal in front of them. SHOT STRUCTURE (8 SEC TOTAL): 0-4s — [ENTRY] Action: Character types rapidly, leans toward the monitor. Emotional Acting: Focused tension. Jaw clenches, brow furrowed, breathing shallow. Camera: Medium shot, slight handheld sway. Lighting: Cold monitor glow on face, warm overhead bulb behind. 4-8s — [PAYOFF] Action: Character freezes mid-keystroke, eyes locked on the screen. Emotional Acting: Shock. Pupils dilate, nostrils flare, micro-tremor in the eyelids. Screen light reflects in the pupils. Camera: Slow dolly-in to an extreme close-up of the eyes. Lighting: Screen reflection sharp in the pupils. Audio Rule: Only the soft hum of servers and slow inhale. No music. No music. Diegetic sound design only.
Identity preservation для @image1 + микромимика в Emotional Acting вместо «он удивлён» = живое лицо с настоящим shock-моментом, а не AI-маска.
Пример 3
Было
продлить моё видео на 5 секунд и добавить пробежку
Стало
REFERENCE ASSIGNMENT: - Base footage (@video1): Use this as the source. Match exact lighting, color grading, lens, and frame composition of the last frame. Continue camera motion seamlessly. Extend @video1 by 5 seconds. New content begins exactly from the last frame of @video1 — preserve framing, exposure, and color grade. New action: The character in frame breaks into a sprint, accelerating from a walk over the first 2 seconds, then full sprint for the remaining 3. Camera transitions from medium tracking to a tighter handheld follow. Audio Rule: Diegetic only — footsteps accelerating, breath quickening. No music. No music. Diegetic sound design only. Grounded realism, no AI gloss.
Video Extension работает только если явно указать @video1 как источник и описать стыковку — «continue camera motion seamlessly», «preserve framing, exposure, color grade». Без этого склейка ломается на первой же секунде нового сегмента.