На каком языке писать промпт?

На нативной платформе 即梦 (Jimeng) лучше работает китайский — модель обучалась на китайских данных. На syntx.ai стандарт — английский, и качество стабильное. Русский тоже принимается, но даёт чуть менее предсказуемые результаты в сложных сценах. Технические якоря (4K, dolly-in, handheld, film grain) всегда оставляем на английском внутри любого языка.

Что делать с реалистичными лицами в загружаемых изображениях?

Платформа блокирует реалистичные человеческие лица в @image и @video референсах — это политика ByteDance, обойти нельзя. Варианты: использовать стилизованные портреты (концепт-арт, иллюстрация), снимать сцены без узнаваемых лиц (силуэты, со спины, дальний план), или генерировать персонажа полностью текстом без референса.

Можно ли сделать видео длиннее 15 секунд?

Не за один запуск — 15 секунд это жёсткий лимит. Длинные видео собирают сегментами: первый промпт до 15с заканчивается на «чистом» кадре, второй сегмент использует первый как @video1 с инструкцией «Extend @video1 by Xс» и описанием нового контента. Между сегментами обязательно описать точку склейки — что на последнем кадре первого сегмента и как продолжается во втором.

Зачем нужна фраза «No music. Diegetic sound design only.»?

Без явного указания Seedance 2.0 часто добавляет фоновую музыку — это превращает cinematic-сцену в трейлер. Серьёзное кино звучит как настоящая жизнь: шаги, дыхание, шум среды, без саундтрека в hard-моментах. Diegetic — это «звуки, источник которых есть в кадре». Этот финальный якорь работает как фильтр, который выключает «трейлер-режим» по умолчанию.

Какие микромимические дескрипторы давать на каждый акт?

TRY CGI рекомендует минимум 2–3 микро-сигнала из трёх групп. Группа «взгляд» — eyes darting, pupils dilating, focused gaze, micro-tremor in the eyelids. Группа «мышцы лица» — jaw clenching, nostrils flaring, brow tension, lips tightening. Группа «дыхание и тело» — visible heavy breathing, shoulder movement on inhale, hand tremor, visible sweat. Без этих дескрипторов модель рендерит «маску» с правильной общей эмоцией, но мёртвую.

Поддерживается ли Opten для Seedance 2.0?

Да, расширение Opten распознаёт Seedance 2.0 внутри syntx.ai и оценивает промпт по TRY CGI-структуре: проверяет наличие именованных блоков LOCATION/STYLE/STORY/CHARACTERS, identity preservation у @-референсов, микромимики в Emotional Acting, Audio Rule с diegetic-якорем и анти-AI-фраз в финале. Одним кликом можно получить rewrite в каноническом формате.

Video

Seedance 2.0: как писать промпты, которые модель понимает

Name: Seedance 2.0
Brand: ByteDance

ByteDance · Обновлено: 19 мая 2026 г.

Seedance 2.0 — флагманская видео-модель ByteDance на платформе 即梦 (Jimeng). Делает 4–15 секунд до 2K, принимает до 9 изображений, 3 видео и 3 аудио за запрос. Понимает @-референсы, тайминг-раскадровку по секундам и многослойные TRY CGI-блоки. На syntx.ai стандарт — английский, на нативной платформе лучше работает китайский.

Что нового в Seedance 2.0

По сравнению с 1.0 Pro / 1.5 Pro это поколенческий скачок. Длительность теперь не фиксированные 5 или 10 секунд, а свободные 4–15. Появилась полная мультимодальность — до 12 файлов за один запрос: изображения, видео и аудио одновременно. Заработал Consistency Control через @-референсы, звуковой контроль с клонированием голоса, продление видео через @Video и тайминг-раскадровка по секундам.

Ключевое архитектурное отличие: модель внутренне маршрутизирует именованные блоки (LOCATION, STYLE, STORY, CHARACTERS, SHOT STRUCTURE) в разные подсистемы — environment, identity, temporal planner. Поэтому «полотно текста» в одном параграфе даёт заметно худший результат, чем тот же текст, разнесённый по блокам.

Длительность 4–15 секунд (вместо 5/10 в 1.0/1.5)
До 9 изображений + 3 видео + 3 аудио за один запрос
Полный Consistency Control через @image, @video, @audio
Тайминг-раскадровка по секундам (0–4с / 4–10с / 10–15с)
Звуковой контроль и клонирование голоса

TRY CGI-структура промпта

Канонический порядок блоков для cinematic-результата: [TITLE & ACT] → LOCATION → REFERENCE ASSIGNMENT → STYLE → STORY → CHARACTERS → SHOT STRUCTURE. Между блоками — ровно одна пустая строка, после двоеточия — пробел.

LOCATION — окружение, свет, погода, ключевые детали фона. STYLE — визуальный пресет («Ultra-photorealistic 4K live-action cinema», «Gritty film grain»). STORY — что происходит в этой конкретной генерации в 1–2 предложениях. CHARACTERS — участники, их текущее настроение, внешние особенности. SHOT STRUCTURE — раскадровка с актами.

Это работает сильнее, чем 6-шаговая формула «Субъект + Действие + Сцена + Камера + Стиль + Звук», потому что блоки попадают в правильные слои генерации.

@-референсы и identity preservation

Seedance 2.0 принимает референсы через `@`-префикс с привязкой к роли: @image1/@image2/@image3 для персонажей и сцен, @video1/@video2/@video3 для копирования камеры и ритма, @audio1/@audio2/@audio3 для голоса и SFX.

Критически важная фраза для персонажа — **Strict identity preservation. No morphing or style changes.** Без неё модель будет «улучшать» лицо между секундами, и persistent character ломается уже к 4-й секунде. Это совет №1 от TRY CGI.

Шаблон REFERENCE ASSIGNMENT: «Protagonist (@image1): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes.» Для аудио — «Audio (@audio1): Reference for realistic electrical buzzing and low machinery hum.»

Тайминг-раскадровка 0–15s

Для 10–15-секундных видео TRY CGI рекомендует 3 именованных акта с фиксированным каркасом полей: Action / Emotional Acting / Camera / Lighting / VFX / Audio Rule.

Канонический 15s шаблон — 0–4s [THE ENTRY] (завязка), 4–10s [THE REVELATION] (поворот, часто dolly-in или crash-zoom), 10–15s [ACTION RESPONSE] (развязка, handheld, motion blur). Для 8s — 2 акта ENTRY → PAYOFF, для 10s — SETUP → CLIMAX.

Главная ошибка — описывать эмоции общими словами («он испуган»). Правильный путь — микромимика: «jaw clenches, nostrils flare, pupils dilate, micro-tremor in the eyelids». Без этих микро-сигналов лицо выглядит как «маска» с правильной общей эмоцией, но мёртвое.

Типичные ошибки

1. Сплошной параграф вместо TRY CGI-блоков
«Полотно текста» из одного абзаца теряет 30–40% качества по сравнению с тем же текстом, разнесённым по LOCATION / STYLE / STORY / CHARACTERS / SHOT STRUCTURE. Модель внутренне маршрутизирует разные блоки в разные слои генерации, и без явных заголовков маршрутизация шумит.
2. @-референс на персонажа без identity preservation
Если есть @image1 на лицо, но нет фразы «Strict identity preservation. No morphing or style changes.» — модель «улучшит» лицо между секундами видео. К 4-й секунде персонаж уже не похож на референс. Эта фраза — совет №1 от TRY CGI для consistency.
3. Эмоции описаны общими словами
«Он испуган», «она счастлива», «удивление» дают на выходе мёртвое лицо-маску. Seedance 2.0 рендерит микромимику только когда её явно описать: «jaw clenches, pupils dilate, micro-tremor in the eyelids, nostrils flare». Минимум 2–3 микро-сигнала на каждый акт.
4. Эпическая музыка по умолчанию
Промпт «epic orchestral soundtrack», «dramatic background score» без явного запроса от пользователя превращает cinematic-сцену в трейлер. Дефолт — «No music. Diegetic sound design only.» Музыку добавлять только если пользователь явно её попросил.
5. Запрос на >15 секунд одним промптом
Лимит платформы — 15 секунд за один запуск. На «сделай 30-секундный ролик» модель либо обрежет, либо сломает темп. Правильный путь — сегментировать: первый промпт до 15с, второй сегмент через @video1 с «Extend @video1 by 15 seconds» и описанием нового контента.

Примеры до/после

Пример 1

Было

видео где собака бежит через площадь, динамично

Стало

LOCATION: Urban square at midday. Concrete pavement, wooden benches, food stalls, crowd in background. Bright natural sunlight with strong side rim light.

STYLE: Ultra-photorealistic 4K cinematic action, gritty film grain, realistic muscle and fur, practical lighting. Gritty realism like a Nolan action film. No cartoonish AI look.

STORY: A dog in a black collar makes a high-speed escape across the square, demonstrating athletic jumps between people and obstacles.

CHARACTERS: Dog, muscular and energetic, in a black collar. Focused eyes, pupils dilated with adrenaline, fur swept back by speed.

SHOT STRUCTURE (10 SEC TOTAL):

0-4s — [SETUP]
  Action: Dog launches from a crouch, muscles tensed.
  Emotional Acting: Concentration. Pupils dilated, ears pinned back, nostrils flared.
  Camera: Low angle dolly tracking behind the dog.
  Audio Rule: Diegetic only — claws on concrete, panting.

4-10s — [CLIMAX]
  Action: Dog vaults a bench, weaves through a crowd.
  Camera: Side tracking, motion blur on background.
  Audio Rule: Footsteps, breath, distant crowd. No music.

No music. Diegetic sound design only. Grounded realism, gritty film grain, no AI aesthetic.

Главное отличие: блочная TRY CGI-структура вместо одного предложения. Каждый блок попадает в свой слой генерации (environment, identity, temporal planner), а финальный анти-AI-якорь спасает от пластикового рендера.

Пример 2

Было

герой смотрит на экран компьютера и понимает что случилось

Стало

LOCATION: Dim server room, racks of blinking LEDs, smoke from a fried capacitor, single overhead bulb.

REFERENCE ASSIGNMENT:
- Protagonist (@image1): Strict identity preservation. Use this image for exact facial features and wardrobe. No morphing or style changes.

STYLE: Ultra-photorealistic 4K cinematic, anamorphic lens flare, gritty film grain. The look of a modern tech thriller, not animation.

STORY: Character realizes the breach is live, in real time, on the terminal in front of them.

SHOT STRUCTURE (8 SEC TOTAL):

0-4s — [ENTRY]
  Action: Character types rapidly, leans toward the monitor.
  Emotional Acting: Focused tension. Jaw clenches, brow furrowed, breathing shallow.
  Camera: Medium shot, slight handheld sway.
  Lighting: Cold monitor glow on face, warm overhead bulb behind.

4-8s — [PAYOFF]
  Action: Character freezes mid-keystroke, eyes locked on the screen.
  Emotional Acting: Shock. Pupils dilate, nostrils flare, micro-tremor in the eyelids. Screen light reflects in the pupils.
  Camera: Slow dolly-in to an extreme close-up of the eyes.
  Lighting: Screen reflection sharp in the pupils.
  Audio Rule: Only the soft hum of servers and slow inhale. No music.

No music. Diegetic sound design only.

Identity preservation для @image1 + микромимика в Emotional Acting вместо «он удивлён» = живое лицо с настоящим shock-моментом, а не AI-маска.

Пример 3

Было

продлить моё видео на 5 секунд и добавить пробежку

Стало

REFERENCE ASSIGNMENT:
- Base footage (@video1): Use this as the source. Match exact lighting, color grading, lens, and frame composition of the last frame. Continue camera motion seamlessly.

Extend @video1 by 5 seconds. New content begins exactly from the last frame of @video1 — preserve framing, exposure, and color grade.

New action: The character in frame breaks into a sprint, accelerating from a walk over the first 2 seconds, then full sprint for the remaining 3. Camera transitions from medium tracking to a tighter handheld follow.

Audio Rule: Diegetic only — footsteps accelerating, breath quickening. No music.

No music. Diegetic sound design only. Grounded realism, no AI gloss.

Video Extension работает только если явно указать @video1 как источник и описать стыковку — «continue camera motion seamlessly», «preserve framing, exposure, color grade». Без этого склейка ломается на первой же секунде нового сегмента.

Seedance 2.0: как писать промпты, которые модель понимает

Что нового в Seedance 2.0

TRY CGI-структура промпта

@-референсы и identity preservation

Тайминг-раскадровка 0–15s

Типичные ошибки

1. Сплошной параграф вместо TRY CGI-блоков

2. @-референс на персонажа без identity preservation

3. Эмоции описаны общими словами

4. Эпическая музыка по умолчанию

5. Запрос на >15 секунд одним промптом

Примеры до/после

Частые вопросы

Похожие модели

Google Veo 3.1 (включает Veo 3.1 Fast и Veo 3.1 Fast Relax)

Google Veo 3

Google Veo (General)

Готов писать промпты для Seedance 2.0 в один клик?