На каком языке писать промпт?

Seedance 2.0 — китайская модель, на нативной платформе 即梦 китайский даёт чуть лучшие результаты. Но английский тоже хорошо поддерживается, особенно на syntx.ai (англоязычная платформа). Для большинства production-сценариев английский — стандарт, не штраф. Если знаешь китайский — пиши на нём, это даст marginal улучшение.

Какой длины может быть видео?

От 4 до 15 секунд за один запуск. Это гибкая длительность с шагом 1 секунда. Для более длинного контента — многосегментная генерация через Video Extension: загружаешь предыдущее видео как @Video1, пишешь «Продлить @Video1 на Xс» + описание новой части. Так собираются 30+ секундные нарративы из последовательных сегментов.

Когда обязательна timestamp-раскадровка?

Для 13–15 секундных видео — обязательна для хорошего результата, иначе модель не справляется с длинным нарративом. Для 9–12 секунд — рекомендуется. Для 4–8 секунд — необязательна, достаточно одного-двух ключевых моментов. Формат: «0-3с: …», «4-8с: …», с реалистичными таймкодами (2–3 секунды на полноценное действие).

Как сохранить персонажа через несколько сцен?

Через Consistency Control с @-референсами изображений. Загружаешь 1–3 фото персонажа, в промпте ссылаешься на @Image1: «@Image1 walks across the room», «@Image1 sits down». Модель будет удерживать внешность через всю генерацию. Для серии видео тот же @-референс даёт consistent персонажа на нескольких клипах.

Можно ли клонировать голос?

Да, через Voice Control. Загружаешь reference-аудио (mp3/wav, ≤15с, <15MB) и в промпте указываешь @Audio1 как источник голоса для диалогов. Диалоги в кавычках с указанием персонажа: «The woman calmly says: "I told you."». Это даёт lip-sync с клонированным голосом — мощный инструмент для дубляжа и виртуальных персонажей.

Какие ограничения по входным файлам?

До 9 изображений (jpeg/png/webp/bmp/tiff/gif, <30MB каждое), до 3 видео (mp4/mov, 2–15с, <50MB, 480p–720p), до 3 аудио (mp3/wav, ≤15с суммарно, <15MB). Максимум 12 файлов в одном запросе. Платформа блокирует реалистичные человеческие лица в загружаемых изображениях/видео — для I2V с людьми используй стилизованные референсы.

Поддерживается ли Opten для Seedance 2.0?

Да, расширение Opten распознаёт Seedance внутри syntx.ai и оценивает промпты по структуре, специфичной для модели: проверяет наличие субъекта, действия и камеры, корректность timestamp-раскадровки для длинных видео, реалистичность таймкодов, использование @-референсов для consistency, и описание звука в промпте. Одним кликом можно получить rewrite в правильной структуре.

Video

Seedance 2.0: как писать промпты, которые модель понимает

Name: Seedance (общий)
Brand: ByteDance

ByteDance · Обновлено: 19 мая 2026 г.

Seedance 2.0 — видеомодель от ByteDance (платформа 即梦/Jimeng) с длительностью 4–15 секунд за один запуск и разрешением до 2K. Мощный мультимодальный вход: до 9 изображений, 3 видео и 3 аудио на запрос. 10 типов генерации, timestamp-раскадровка для длинных видео, нативный звуковой контроль. Промпты до 2 000 символов.

Что умеет Seedance 2.0

Seedance 2.0 — одна из самых функциональных видеомоделей публичного рынка. Десять типов генерации в одном продукте: T2V, Consistency Control с @-референсами, копирование камеры из reference-видео, копирование спецэффектов, story completion, video extension, voice cloning, one-take long shot, video editing, beat sync с музыкой.

Мультимодальный вход: до 9 изображений (jpeg/png/webp/bmp/tiff/gif, <30MB), до 3 видео (mp4/mov, 2–15с, <50MB, 480p–720p), до 3 аудио (mp3/wav, ≤15с суммарно, <15MB), максимум 12 файлов в одном запросе. Длительность 4–15 секунд за проход, для более длинного контента — последовательное продление через @Video.

10 типов генерации, включая voice cloning и beat sync
Мультимодальный вход: 9 изображений + 3 видео + 3 аудио
Длительность 4–15 секунд, разрешение до 2K
@-референсы для consistency control персонажей и сцен
Timestamp-раскадровка для 13–15 секундных нарративов

Базовая структура промпта

Оптимальная формула: [Subject/Character] + [Scene/Environment] + [Action/Motion] + [Camera Movement] + [Timing Breakdown] + [Audio/Sound] + [Style/Mood]. Не обязательно использовать все элементы — состав зависит от типа видео.

Чем больше конкретики, тем лучше результат. Активные глаголы вместо абстракций («ходит, поворачивается, берёт» вместо «что-то происходит»). Хотя бы одно указание на крупность плана или движение камеры в каждом промпте. Конкретное физическое описание сцены и среды.

Длина промпта — до 2 000 символов. На syntx.ai (англоязычная платформа) рекомендуется английский; на нативном 即梦 китайский даёт чуть лучшие результаты. Английский в любом случае не штраф — модель обучена на обоих языках.

10 типов генерации

T2V — генерация только из текста. Consistency Control — фиксация персонажа/продукта/сцены через @-референсы изображений. Копирование камеры — загрузка reference-видео для копирования камерных движений и хореографии. Копирование спецэффектов — VFX и переходы из reference-видео.

Story Completion — модель достраивает сюжет из раскадровки или последовательности изображений. Video Extension — плавное продление существующего видео. Voice Control — клонирование голоса, генерация диалогов, звуковой дизайн. One-Take Long Shot — непрерывный план без склеек.

Video Editing — замена персонажей, изменение сюжета. Beat Sync — синхронизация визуального ритма с музыкой через reference-аудио. Каждый тип имеет свою формулу промпта (см. документацию на платформе).

Timestamp-раскадровка

Самая мощная техника для 13–15 секундных видео — разбивка по секундам. Это даёт точный контроль над развитием нарратива:

0-3с: [сцена + камера + звук] 4-8с: [сцена + камера + звук] 9-12с: [сцена + камера + звук] 13-15с: [сцена + камера + звук]

Ключевое правило — реалистичные таймкоды. Полноценное действие требует 2–3 секунды, короткий жест — 1 секунду. Не пытайся упаковать «ходьбу через комнату» в 0.5 секунды. Для 4–8 секундных видео timestamp не обязателен — достаточно одного-двух ключевых моментов. Для 9–12 секунд тайминг рекомендуется. Для 13–15 — обязателен для хорошего результата.

Типичные ошибки

1. Слишком короткий или слишком длинный промпт
Меньше 15 слов — модель додумает слишком много, и результат непредсказуем. Больше 2 000 символов — перегрузка деталями, модель начинает игнорировать часть промпта. Оптимум для большинства сцен — 50–200 слов, для timestamp-раскадровок — 300–500 слов с явными сценами.
2. Конфликтующие камерные движения одновременно
«Zoom in while panning left and orbiting around» — модель не справится с тремя одновременными движениями за 5–10 секунд экранного времени. Выбирай одно главное движение в сцене, плюс опциональный модификатор скорости. Если нужны разные движения — разбивай на сегменты через timestamp-раскадровку.
3. Запрос больше 15 секунд в одном проходе
15 секунд — жёсткий лимит платформы за одну генерацию. Запрос «30-секундное видео» либо обрежет до 15, либо вернёт ошибку. Для более длинного контента — многосегментная схема через Video Extension: сегмент за сегментом с плавными склейками.
4. Абстрактные формулировки вместо физических действий
«Something beautiful happens», «emotional moment», «mood shifts» — модель не понимает абстракций. Описывай конкретные физические действия: «she slowly turns her head», «light fades from warm to cool», «petals fall onto the table». Это даёт предсказуемый, контролируемый результат.
5. Реалистичные человеческие лица в загружаемых изображениях
Платформа 即梦/Jimeng блокирует загрузку реалистичных человеческих лиц в качестве референсов — это политика ByteDance, не bypass'абельное ограничение. Для I2V с людьми используй стилизованные референсы (illustration, painting, cartoon) или генерируй сцену с людьми через T2V без reference-изображения.

Примеры до/после

Пример 1

Было

видео где человек убегает по улице

Стало

Wide tracking shot of a man in a black hoodie sprinting down a narrow alley at dusk. Side tracking, camera moves at chest height parallel to him. He knocks over a fruit stall, stumbles, gets back up, keeps running. Wet pavement reflects neon signs. Loud panicked footsteps, distant crowd murmur, heavy breathing. 16:9, 24fps, 8 seconds, cinematic noir tone.

Конкретная сцена (alley at dusk), физические детали (knocks over stall, wet pavement), камерные параметры (chest height parallel), звук (footsteps, crowd, breathing), технические параметры в конце. Это рабочий T2V-промпт.

Пример 2

Было

длинное видео с историей героя 15 секунд

Стало

0-3с: Wide shot, a woman in a red coat walks toward a wooden cabin in a snowy forest. Slow forward dolly, soft ambient wind, crunching snow.
4-8с: Medium shot, she opens the cabin door, warm orange light spills onto the snow. Camera slowly pushes in.
9-12с: Interior close-up, she sets a lantern on a wooden table, takes off her gloves. Soft crackling fireplace ambient.
13-15с: Wide interior shot, she sits by the fire, exhales. Camera pulls back to reveal the warm, intimate room. Soft piano music begins.

Timestamp-раскадровка с реалистичным таймингом (3–4 секунды на beat), консистентный персонаж (the woman in red coat), плавный нарратив через 4 сцены. Звук варьируется по сценам. Это сильная сторона именно Seedance 2.0.

Пример 3

Было

продуктовый ролик с моим брендом из 3 кадров

Стало

Use @Image1 (product hero shot) and @Image2 (lifestyle context). Beat sync to @Audio1 (brand music track).
0-2с: Close-up of @Image1 product rotating slowly on a marble surface. Soft side light, shallow DoF.
3-5с: Cut to @Image2 lifestyle scene, person holds the product naturally, smiles slightly. Hand-held camera, warm afternoon light.
6-8с: Wide editorial shot, product centered with brand color palette around it. Smooth dolly out. Beat hit at 8s. 16:9, 24fps.

Multi-modal промпт с @-референсами (Image1, Image2, Audio1), beat sync к музыке, timestamp-раскадровка для 3 шотов, технические параметры. Это production-сценарий, под который Seedance 2.0 спроектирован.

Seedance 2.0: как писать промпты, которые модель понимает

Что умеет Seedance 2.0

Базовая структура промпта

10 типов генерации

Timestamp-раскадровка

Типичные ошибки

1. Слишком короткий или слишком длинный промпт

2. Конфликтующие камерные движения одновременно

3. Запрос больше 15 секунд в одном проходе

4. Абстрактные формулировки вместо физических действий

5. Реалистичные человеческие лица в загружаемых изображениях

Примеры до/после

Частые вопросы

Похожие модели

Google Veo 3.1 (включает Veo 3.1 Fast и Veo 3.1 Fast Relax)

Google Veo 3

Google Veo (General)

Готов писать промпты для Seedance (общий) в один клик?