Seedream 4.5: как писать промпты, которые модель понимает
ByteDance · Обновлено:
Seedream 4.5 — мейнстрим-версия image-модели ByteDance. Делает text-to-image, image-to-image и multi-image blending до 4K. Оптимальная длина промпта 30–100 слов. Доступна через fal.ai, YouMind, flux-ai.io. Принесла читаемый рендеринг текста, пространственное понимание сцен и точное следование сложным инструкциям — главный production-выбор линейки.
Что нового в 4.5 по сравнению с 4.0
4.5 — это поколенческий скачок над 4.0 по всем направлениям. Превосходная эстетика с проработанным светом и тенями, высокая консистентность сложных сцен, точное следование сложным промптам с визуальным контролем.
Ключевые апгрейды: пространственное понимание (реалистичные пропорции, размещение объектов, компоновка), богатые мировые знания (научное и техническое обоснование), читаемый рендеринг текста на изображениях (постеры, вывески, инфографика), и multi-image blending — смешивание нескольких референсных изображений в один результат.
Разрешение поднято до 4K (в 4.0 — до 2K). Поддержка editing endpoint — inpainting и модификации существующих изображений работают точно, а не «возьми как стартовую точку».
- Text-to-Image, Image-to-Image, Multi-Image Blending
- Разрешение до 4K (vs 2K в 4.0)
- Оптимальная длина промпта 30–100 слов
- Точный рендеринг читаемого текста
- Editing endpoint (inpainting, точные модификации)
Структура промпта
Каноническая формула: `[Субъект] + [Стиль] + [Композиция] + [Освещение/Атмосфера] + [Технические параметры]`. Иерархия приоритизации та же, что в 4.0 — субъект всегда первый.
Но 4.5 справляется с куда более детализированными промптами без потери фокуса. Можно безопасно писать 60–100 слов с конкретикой по каждому уровню — модель удерживает все элементы.
Пример: «A young woman in soft natural light, photorealistic portrait style, 85mm lens, shallow depth of field, subtle expression, smooth bokeh background, clean composition, --ar 4:5.» — это 28 слов, заполнены все пять уровней иерархии. На такой промпт 4.5 даёт стабильно production-качество.
Рендеринг текста
Главный апгрейд 4.5 — читаемый текст в изображении. Постеры с заголовками, вывески, инфографика, упаковка — всё что было слабой зоной 4.0, теперь работает.
Правила те же, что в других моделях с in-image text: точный текст в кавычках («text "BEYOND THE STARS"»), указан стиль шрифта («bold metallic sans-serif»), указано расположение («centered at top», «bottom left corner»), указан формат («--ar 2:3» для постера).
Для длинных строк — разбивай на отдельные элементы. «Movie poster, text "BEYOND THE STARS" centered at top, subtitle "a journey beyond imagination" at bottom» работает лучше, чем одна длинная строка. Латиница даёт самые стабильные результаты; кириллица читаемая, но менее точная.
Multi-Image Blending
Уникальная для 4.5 возможность — смешивание двух референсных изображений в один результат. Шаги: 1) подготовить базовые изображения; 2) загрузить два изображения для смешивания; 3) написать описание желаемого результата; 4) указать, какие стилевые элементы сохранить из каждого источника.
Типичный сценарий: персонаж с одного фото + сеттинг с другого. «Take the character from image 1 and place them in the environment from image 2. Preserve the character's exact facial features and wardrobe from image 1. Use the lighting and atmosphere from image 2.»
Другой сценарий: смешение двух стилей. «Blend the colour palette of image 1 with the composition style of image 2.» — модель синтезирует промежуточный визуал. Это сильнее, чем style transfer — модель действительно понимает, что взять из каждого референса.
Типичные ошибки
1. Использование 4.5 как «быстрого» 5
5 Lite лучше во всём, но 4.5 — production-стандарт линейки на момент релиза. Не пытайся писать промпт по правилам 5 (120 слов, расширенные стили, улучшенная анатомия) на 4.5 — модель потеряет фокус. Оптимум для 4.5 — 30–100 слов, и придерживайся стандартного набора стилей.
2. Multi-Image Blending без явного preserve-списка
При смешивании двух изображений нужно явно указать, что брать из каждого. «Возьми персонажа из image 1 и помести в сцену из image 2» — слишком абстрактно. Правильно: «Preserve the person's exact facial features, wardrobe, and pose from image 1. Use the lighting and color palette from image 2.»
3. Длинный текст в одной строке
Постер с одной длинной строкой («text "BEYOND THE STARS A JOURNEY BEYOND IMAGINATION"») 4.5 рендерит хуже, чем разбитый на части. Лучше: «text "BEYOND THE STARS" centered at top, subtitle "a journey beyond imagination" at bottom». Длинные строки модель может исказить даже на 4.5.
4. Негативы в основном тексте
Как и в 4.0, на 4.5 негативные промпты пишутся в отдельное поле platform negative_prompt, не в основной текст. «No watermark, no text» в основном промпте — антипаттерн, модель может добавить водяной знак. Используй отдельное поле или переформулируй позитивно.
5. Конфликтующие стили
«Photorealistic oil painting cartoon» работает на 4.5 чуть лучше, чем на 4.0, но всё равно даёт непредсказуемый результат. Выбирай один доминирующий стиль и максимум один совместимый модификатор. «Cinematic with film grain», «photorealistic with subtle painterly touches» — ок. «Realistic anime» — нет.
Примеры до/после
Пример 1
Было
красивая фотография еды для меню ресторана
Стало
Bowl of artisan ramen with soft-boiled egg, sliced pork belly, and fresh green onions on a dark stone surface, food photography, soft overhead lighting from the upper-left, steam rising from the bowl, shallow depth of field with sharp focus on the egg yolk, warm earthy color palette, close-up overhead angle, --ar 1:1.
Конкретный субъект (что именно в кадре), food photography стиль, явное освещение с направлением, композиция overhead, depth of field. 50 слов — рабочая длина для 4.5. На таком уровне детализации 4.5 даёт почти production-ready результат.
Пример 2
Было
постер фильма с заголовком и атмосферой ужаса
Стало
Horror movie poster with text "THE LAST NIGHT" in bold weathered sans-serif typography centered at the upper third, dark abandoned hallway receding into shadow, single bare bulb hanging from the ceiling, dramatic low-key lighting with hard shadows, cold blue-grey color palette with one accent of red light at the far end, subtle film grain, cinematic 35mm aesthetic, --ar 2:3.
Текст в кавычках, явный стиль шрифта, явное расположение в кадре. Сцена с пространственным пониманием (коридор, лампа, дальний красный акцент). Это то, что в 4.0 ломается, а в 4.5 работает.
Пример 3
Было
смешай моё фото с пейзажем как фон
Стало
Take the person from image 1 and place them in the mountain landscape from image 2. Preserve the person's exact facial features, wardrobe, and pose from image 1. Use the lighting, atmosphere, and golden hour color palette from image 2. Match the scale so the person stands naturally in the mid-ground, with the mountain peaks rising behind them. Cinematic style, shallow depth of field, --ar 16:9.
Multi-Image Blending промпт: явно сказано, что взять из image 1 (внешность, одежда, поза), что взять из image 2 (свет, атмосфера, палитра), плюс инструкция по масштабу и расположению. Без явного preserve-списка модель может «улучшить» лицо или изменить одежду.