Seedance New: как писать промпты, которые модель понимает
ByteDance · Обновлено:
Seedance New — самая свежая итерация видео-модели ByteDance, наследник Seedance 2.0 с экспериментальными улучшениями. Делает 4–15 секунд до 2K, принимает до 9 изображений, 3 видео и 3 аудио. Заметно стабильнее 2.0 на длинных видео и сложных consistency-сценах. Все техники 2.0 работают в полном объёме — это «2.0+», не отдельная архитектура.
Чем New отличается от 2.0
New — это bleeding edge: те же лимиты платформы (4–15 секунд, до 2K, 12 файлов на запрос), но улучшенная стабильность генерации длинных видео и более точное следование сложным промптам. На 13–15-секундных нарративах New ломается реже, чем 2.0.
Экспериментально улучшен Consistency Control — персонажи между актами «дрейфуют» меньше, что критично для cinematic-сцен с эмоциональной аркой. Документации мало, но на практике именно эта модель даёт лучшие результаты на сложных TRY CGI-промптах.
Важно для оценки: поскольку это самая свежая версия, все техники 2.0 (TRY CGI-блоки, @-референсы, тайминг по секундам, identity preservation, микромимика, Audio Rule, анти-AI-якоря) применимы в полном объёме. Оценка должна быть максимально строгой — модель способна обработать промпт любой сложности.
- Все возможности Seedance 2.0 в полном объёме
- Улучшенная стабильность длинных видео (13–15с)
- Меньше character drift между актами
- Лучшее следование сложным многослойным промптам
- Bleeding edge — документация ограничена
TRY CGI-структура промпта
Канонический порядок блоков: [TITLE & ACT] → LOCATION → REFERENCE ASSIGNMENT → STYLE → STORY → CHARACTERS → SHOT STRUCTURE. Между блоками — ровно одна пустая строка, после двоеточия — пробел.
LOCATION — окружение, свет, погода, ключевые детали фона. STYLE — визуальный пресет («Ultra-photorealistic 4K live-action cinema», «Gritty film grain»). STORY — что происходит в этой генерации в 1–2 предложениях. CHARACTERS — участники, их текущее настроение, внешние особенности. SHOT STRUCTURE — раскадровка с актами.
New, как и 2.0, внутренне маршрутизирует именованные блоки в разные слои генерации. На New этот эффект усилен: разница между «полотном текста» и блочным промптом больше, чем на 2.0. Если когда-нибудь стоило тратить время на блочную структуру — то именно сейчас.
Тайминг-раскадровка и эмоциональный реализм
Для 13–15-секундных видео — обязательная тайминг-раскадровка по секундам. На New она работает заметно стабильнее 2.0: меньше склеек и character drift между актами.
Канонический шаблон: 0–4s [THE ENTRY], 4–10s [THE REVELATION], 10–15s [ACTION RESPONSE]. В каждом акте — поля Action / Emotional Acting / Camera / Lighting / VFX / Audio Rule.
Эмоциональный реализм — главный множитель качества. На каждый акт минимум 2–3 микро-сигнала: jaw clenching, pupils dilating, micro-tremor in the eyelids, nostrils flaring, visible heavy breathing, shoulder movement on inhale. Без них даже идеальная композиция выглядит как маска. New рендерит микромимику особенно убедительно — это то, ради чего стоит переходить с 2.0.
@-референсы и identity preservation
Полный @-синтаксис работает: @image1/@image2/@image3 для персонажей и сцен, @video1/@video2/@video3 для копирования камеры и ритма, @audio1/@audio2/@audio3 для голоса и SFX. Лимит — 9 изображений + 3 видео + 3 аудио = до 12 файлов.
Критическая фраза для @image на персонажа — **Strict identity preservation. No morphing or style changes.** На New character drift между актами заметно меньше, чем на 2.0, но без этой фразы он всё равно появляется к 8–10 секунде.
Для сложных multi-character сцен с двумя и более @image-референсами — повторяй identity preservation для каждого: «Protagonist (@image1): Strict identity preservation. Antagonist (@image2): Strict identity preservation.» — иначе модель смешает черты.
Типичные ошибки
1. Считать New «другой моделью», а не 2.0+
Все правила 2.0 действуют для New в полном объёме: TRY CGI-блоки, identity preservation, микромимика, Audio Rule, анти-AI-якоря. New не «перепрошита» — это та же архитектура с улучшениями стабильности. Промпт без блоков на New работает так же плохо, как и на 2.0.
2. Multi-character без identity preservation на каждого
Если в сцене два @image-референса, identity preservation надо повторять для каждого: «Hero A (@image1): Strict identity preservation. Hero B (@image2): Strict identity preservation.» Без этого модель смешает черты между персонажами уже к середине клипа.
3. Полагаться на улучшенную стабильность вместо правильной структуры
New стабильнее 2.0, но это не значит «можно писать как попало». Сплошной параграф вместо блочной структуры, эмоции общими словами, отсутствие микромимики — всё это даёт на New такой же провал в качестве, как и на 2.0. Бонус стабильности срабатывает только поверх правильно написанного промпта.
4. Эпическая музыка без явной просьбы пользователя
Дефолт — «No music. Diegetic sound design only.» Универсальный финальный якорь. Музыка превращает cinematic-сцену в трейлер, а на 15-секундных нарративах с эмоциональной аркой это убивает погружение. Если пользователь хочет музыку — он попросит явно.
5. Запрос на >15 секунд одним промптом
New, как и 2.0, ограничен 15 секундами за запуск. На «сделай 30-секундный ролик» модель либо обрежет, либо сломает темп. Правильный путь — сегментация: первый промпт до 15с, второй сегмент через @video1 с «Extend @video1 by 15 seconds» и описанием нового контента.
Примеры до/после
Пример 1
Было
длинное драматичное видео где детектив раскрывает дело
Стало
LOCATION: Dim 1970s detective office, smoke-stained walls, single desk lamp with cracked green glass shade, evidence photos pinned to a corkboard, half-empty whiskey glass on the desk. REFERENCE ASSIGNMENT: - Detective (@image1): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes. STYLE: Ultra-photorealistic 4K cinematic, anamorphic lens flare, gritty film grain, neo-noir color grade with deep shadows and warm key light. The look of Chinatown, not Netflix gloss. STORY: Detective stares at the corkboard, makes the connection that solves the case, and quietly reaches for the phone. CHARACTERS: Mid-50s detective, weathered face, three-day stubble, loosened tie, rolled shirtsleeves. Tired but sharp. SHOT STRUCTURE (15 SEC TOTAL): 0-4s — [THE ENTRY] Action: Detective slowly scans the corkboard, eyes moving photo to photo. Emotional Acting: Quiet focus. Brow furrowed, jaw set, lips slightly parted. Camera: Medium shot, slow handheld drift left to right. Lighting: Warm desk lamp from below, deep shadows on the upper face. 4-10s — [THE REVELATION] Action: Detective stops on one photo, leans in, then sharply pulls back as the realization lands. Emotional Acting: Shock turning to grim certainty. Pupils dilate, jaw clenches, micro-tremor in the eyelids, slow exhale through the nose. Camera: Slow dolly-in to extreme close-up of the eyes, then slight push back. Lighting: Lamp glow sharpens, screen of evidence in the pupils. 10-15s — [ACTION RESPONSE] Action: Detective reaches for the rotary phone, dials without looking, lifts the receiver. Emotional Acting: Cold focus. Brow tension, lips tight, steady breathing. Camera: Tight side angle, handheld, slight motion blur. Audio Rule: Diegetic only — phone dial clicks, glass scraping on the desk, slow inhale. No music. Diegetic sound design only. Grounded realism, gritty film grain, no cartoonish look, no AI aesthetic.
Это типичный 15-секундный TRY CGI-промпт под сильную сторону New: длинный нарратив с тремя актами, identity preservation на детектива, эмоциональная арка от focus → revelation → cold resolve через явную микромимику.
Пример 2
Было
два героя сидят в баре и спорят, эмоционально
Стало
LOCATION: Smoky neighborhood bar at night, low pendant lights over the booth, neon sign across the window throwing red across one side of the frame. REFERENCE ASSIGNMENT: - Hero A (@image1): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes. - Hero B (@image2): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes. STYLE: Ultra-photorealistic 4K cinematic, 35mm anamorphic, gritty film grain. The look of a Sicario booth scene, not a sitcom. STORY: Hero A pushes Hero B for an answer; Hero B refuses; the tension cracks but does not break. SHOT STRUCTURE (10 SEC TOTAL): 0-4s — [SETUP] Action: Hero A leans forward across the table, voice low and pressing. Hero B keeps his eyes down on the glass. Emotional Acting: Hero A — controlled pressure, jaw set, eyes locked on Hero B. Hero B — refusal, lips tight, slow breathing, brow heavy. Camera: Two-shot, slow handheld dolly-in. Lighting: Warm key from above, red neon rim on the right. 4-10s — [CLIMAX] Action: Hero B looks up sharply, holds the gaze for two beats, then deliberately picks up his glass and drinks. Emotional Acting: Hero B — quiet defiance. Eyes steady, nostrils flare once, micro-tremor at the corner of the mouth. Hero A — micro-recoil, brief blink, jaw flexes. Camera: Cut to tight shot-reverse-shot on each face. Audio Rule: Diegetic only — glass on wood, low background bar chatter, breathing. No music. No music. Diegetic sound design only. Grounded realism, no AI gloss.
Multi-character сцена с двумя @image-референсами — New держит consistency для обоих персонажей надёжнее, чем 2.0. Identity preservation повторяется для каждого, микромимика прописана отдельно на каждое лицо.
Пример 3
Было
продли моё 15-секундное видео ещё на 10 секунд
Стало
REFERENCE ASSIGNMENT: - Base footage (@video1): Use this as the source. Match exact lighting, color grading, lens, and frame composition of the last frame. Continue camera motion seamlessly. Extend @video1 by 10 seconds. New content begins exactly from the last frame of @video1 — preserve framing, exposure, and color grade. SHOT STRUCTURE (10 SEC NEW CONTENT): 0-4s — [CONTINUATION] Action: The character on screen finishes the action from the previous segment and begins to walk away from camera into the corridor. Camera: Continue the slow tracking from @video1, transition into a wider locked-off shot once the character is mid-corridor. Lighting: Match the existing cool corridor fluorescents from the previous segment. 4-10s — [PAYOFF] Action: Character reaches the far door, hesitates, then pushes it open. Light from the other side spills into the corridor. Emotional Acting: Quiet resolution. Slight pause, shoulders settle, slow exhale. Camera: Locked wide, gentle push-in as the door opens. Audio Rule: Diegetic only — footsteps, door hinge, distant ambient. No music. No music. Diegetic sound design only. Grounded realism, no AI gloss.
Video Extension через @video1 + полная TRY CGI-структура для новых 10 секунд. На New склейка из сегмента в сегмент работает плавнее, чем на 2.0 — character drift и color drift сведены к минимуму.