Seedance 2.0: как писать промпты, которые модель понимает
ByteDance · Обновлено:
Seedance 2.0 — видеомодель от ByteDance (платформа 即梦/Jimeng) с длительностью 4–15 секунд за один запуск и разрешением до 2K. Мощный мультимодальный вход: до 9 изображений, 3 видео и 3 аудио на запрос. 10 типов генерации, timestamp-раскадровка для длинных видео, нативный звуковой контроль. Промпты до 2 000 символов.
Что умеет Seedance 2.0
Seedance 2.0 — одна из самых функциональных видеомоделей публичного рынка. Десять типов генерации в одном продукте: T2V, Consistency Control с @-референсами, копирование камеры из reference-видео, копирование спецэффектов, story completion, video extension, voice cloning, one-take long shot, video editing, beat sync с музыкой.
Мультимодальный вход: до 9 изображений (jpeg/png/webp/bmp/tiff/gif, <30MB), до 3 видео (mp4/mov, 2–15с, <50MB, 480p–720p), до 3 аудио (mp3/wav, ≤15с суммарно, <15MB), максимум 12 файлов в одном запросе. Длительность 4–15 секунд за проход, для более длинного контента — последовательное продление через @Video.
- 10 типов генерации, включая voice cloning и beat sync
- Мультимодальный вход: 9 изображений + 3 видео + 3 аудио
- Длительность 4–15 секунд, разрешение до 2K
- @-референсы для consistency control персонажей и сцен
- Timestamp-раскадровка для 13–15 секундных нарративов
Базовая структура промпта
Оптимальная формула: [Subject/Character] + [Scene/Environment] + [Action/Motion] + [Camera Movement] + [Timing Breakdown] + [Audio/Sound] + [Style/Mood]. Не обязательно использовать все элементы — состав зависит от типа видео.
Чем больше конкретики, тем лучше результат. Активные глаголы вместо абстракций («ходит, поворачивается, берёт» вместо «что-то происходит»). Хотя бы одно указание на крупность плана или движение камеры в каждом промпте. Конкретное физическое описание сцены и среды.
Длина промпта — до 2 000 символов. На syntx.ai (англоязычная платформа) рекомендуется английский; на нативном 即梦 китайский даёт чуть лучшие результаты. Английский в любом случае не штраф — модель обучена на обоих языках.
10 типов генерации
T2V — генерация только из текста. Consistency Control — фиксация персонажа/продукта/сцены через @-референсы изображений. Копирование камеры — загрузка reference-видео для копирования камерных движений и хореографии. Копирование спецэффектов — VFX и переходы из reference-видео.
Story Completion — модель достраивает сюжет из раскадровки или последовательности изображений. Video Extension — плавное продление существующего видео. Voice Control — клонирование голоса, генерация диалогов, звуковой дизайн. One-Take Long Shot — непрерывный план без склеек.
Video Editing — замена персонажей, изменение сюжета. Beat Sync — синхронизация визуального ритма с музыкой через reference-аудио. Каждый тип имеет свою формулу промпта (см. документацию на платформе).
Timestamp-раскадровка
Самая мощная техника для 13–15 секундных видео — разбивка по секундам. Это даёт точный контроль над развитием нарратива:
0-3с: [сцена + камера + звук] 4-8с: [сцена + камера + звук] 9-12с: [сцена + камера + звук] 13-15с: [сцена + камера + звук]
Ключевое правило — реалистичные таймкоды. Полноценное действие требует 2–3 секунды, короткий жест — 1 секунду. Не пытайся упаковать «ходьбу через комнату» в 0.5 секунды. Для 4–8 секундных видео timestamp не обязателен — достаточно одного-двух ключевых моментов. Для 9–12 секунд тайминг рекомендуется. Для 13–15 — обязателен для хорошего результата.
Типичные ошибки
1. Слишком короткий или слишком длинный промпт
Меньше 15 слов — модель додумает слишком много, и результат непредсказуем. Больше 2 000 символов — перегрузка деталями, модель начинает игнорировать часть промпта. Оптимум для большинства сцен — 50–200 слов, для timestamp-раскадровок — 300–500 слов с явными сценами.
2. Конфликтующие камерные движения одновременно
«Zoom in while panning left and orbiting around» — модель не справится с тремя одновременными движениями за 5–10 секунд экранного времени. Выбирай одно главное движение в сцене, плюс опциональный модификатор скорости. Если нужны разные движения — разбивай на сегменты через timestamp-раскадровку.
3. Запрос больше 15 секунд в одном проходе
15 секунд — жёсткий лимит платформы за одну генерацию. Запрос «30-секундное видео» либо обрежет до 15, либо вернёт ошибку. Для более длинного контента — многосегментная схема через Video Extension: сегмент за сегментом с плавными склейками.
4. Абстрактные формулировки вместо физических действий
«Something beautiful happens», «emotional moment», «mood shifts» — модель не понимает абстракций. Описывай конкретные физические действия: «she slowly turns her head», «light fades from warm to cool», «petals fall onto the table». Это даёт предсказуемый, контролируемый результат.
5. Реалистичные человеческие лица в загружаемых изображениях
Платформа 即梦/Jimeng блокирует загрузку реалистичных человеческих лиц в качестве референсов — это политика ByteDance, не bypass'абельное ограничение. Для I2V с людьми используй стилизованные референсы (illustration, painting, cartoon) или генерируй сцену с людьми через T2V без reference-изображения.
Примеры до/после
Пример 1
Было
видео где человек убегает по улице
Стало
Wide tracking shot of a man in a black hoodie sprinting down a narrow alley at dusk. Side tracking, camera moves at chest height parallel to him. He knocks over a fruit stall, stumbles, gets back up, keeps running. Wet pavement reflects neon signs. Loud panicked footsteps, distant crowd murmur, heavy breathing. 16:9, 24fps, 8 seconds, cinematic noir tone.
Конкретная сцена (alley at dusk), физические детали (knocks over stall, wet pavement), камерные параметры (chest height parallel), звук (footsteps, crowd, breathing), технические параметры в конце. Это рабочий T2V-промпт.
Пример 2
Было
длинное видео с историей героя 15 секунд
Стало
0-3с: Wide shot, a woman in a red coat walks toward a wooden cabin in a snowy forest. Slow forward dolly, soft ambient wind, crunching snow. 4-8с: Medium shot, she opens the cabin door, warm orange light spills onto the snow. Camera slowly pushes in. 9-12с: Interior close-up, she sets a lantern on a wooden table, takes off her gloves. Soft crackling fireplace ambient. 13-15с: Wide interior shot, she sits by the fire, exhales. Camera pulls back to reveal the warm, intimate room. Soft piano music begins.
Timestamp-раскадровка с реалистичным таймингом (3–4 секунды на beat), консистентный персонаж (the woman in red coat), плавный нарратив через 4 сцены. Звук варьируется по сценам. Это сильная сторона именно Seedance 2.0.
Пример 3
Было
продуктовый ролик с моим брендом из 3 кадров
Стало
Use @Image1 (product hero shot) and @Image2 (lifestyle context). Beat sync to @Audio1 (brand music track). 0-2с: Close-up of @Image1 product rotating slowly on a marble surface. Soft side light, shallow DoF. 3-5с: Cut to @Image2 lifestyle scene, person holds the product naturally, smiles slightly. Hand-held camera, warm afternoon light. 6-8с: Wide editorial shot, product centered with brand color palette around it. Smooth dolly out. Beat hit at 8s. 16:9, 24fps.
Multi-modal промпт с @-референсами (Image1, Image2, Audio1), beat sync к музыке, timestamp-раскадровка для 3 шотов, технические параметры. Это production-сценарий, под который Seedance 2.0 спроектирован.