FLUX.1: как писать промпты, которые модель понимает
Replicate · Обновлено:
FLUX.1 — флагманская image-модель от Black Forest Labs (schnell, dev, pro, 1.1 pro Ultra). Двойной энкодер CLIP + T5-XXL интерпретирует длинные связные описания значительно точнее моделей на одном CLIP, рендерит текст в кадре на уровне лидеров рынка, поддерживает разрешения до 2752×2752 в Ultra-варианте.
Что умеет FLUX.1
FLUX.1 — одна из сильнейших моделей в нише photorealism, портретов и пейзажей. Двойной энкодер позволяет модели понимать связные подписи в стиле кинематографических брифов: длинные предложения с многослойной композицией обрабатываются лучше, чем у моделей на одном CLIP.
Рендеринг текста в изображениях — топ в классе, особенно у [pro] и [max]. Поддерживается вся фото-терминология (объективы 35/50/85mm, диафрагма, глубина резкости), широкий стилевой диапазон от documentary до oil painting, и разрешения до 2752×2752 в 1.1 pro Ultra с режимом Raw.
- Двойной энкодер CLIP + T5-XXL — лучшая интерпретация длинных описаний
- Разрешение до 2752×2752 в 1.1 pro Ultra, до 1440×1440 в pro
- Топ-класс по рендерингу текста в кадре
- Несколько вариантов: schnell, dev, pro, 1.1 pro Ultra
- Промпт ~2000 токенов, оптимально 50–200 слов
Структура промпта
Оптимальный порядок: [Субъект] + [Детали внешности] + [Сцена/Окружение] + [Освещение] + [Стиль/Арт-направление] + [Камера/Техника] + [Настроение/Цвет].
Пример: «A wide-angle view of a snow-capped mountain range at dawn, mist swirling over the icy peaks, with a vibrant orange-pink sky in the background and a lone wolf in the foreground looking into the horizon, cinematic photography, shot on RED camera, dramatic warm light».
Главный принцип — связное описательное предложение, а не теги. T5-XXL обучен на длинных подписях и читает контекст лучше при полноценных конструкциях.
Многослойное описание и камера
Описывай сцену от переднего плана к заднему: «In the foreground, a large oak tree with golden autumn leaves. Behind it, a flowing river, and in the background, a mist-covered mountain range». Такая структура даёт модели чёткую пространственную глубину.
Для фотореализма используй фото-терминологию: «Shot with a 50mm lens at f/2.8, shallow depth of field, blurred background», «Wide-angle 24mm lens, deep focus, everything sharp», «Macro photography, extreme close-up, water droplets on a leaf». Параметры камеры работают значительно надёжнее, чем общие quality-фразы.
Текст в изображении и арт-стили
FLUX.1 — одна из лучших моделей для текста. Используй кавычки: «A neon sign reading "OPEN 24/7" on a dark brick wall», «A handwritten note saying "I love you" on vintage paper». Указывай шрифт, размер, цвет и расположение для контроля.
Конкретные арт-стили работают лучше абстрактных: «Impressionist painting with visible brushstrokes», «Art Nouveau poster style», «1980s cyberpunk neon aesthetic», «Bauhaus minimalism». Не смешивай конфликтующие стили в одном промпте — это даёт непредсказуемый результат.
Типичные ошибки
1. Список ключевых слов вместо связного описания
FLUX.1 обучена на длинных подписях. Связное предложение даёт значительно лучший результат, чем «mountain, snow, sky, blue, epic, detailed». T5-XXL читает контекст и связи между словами — это его главное преимущество.
2. Prompt weights и SD-синтаксис
FLUX.1 НЕ поддерживает `(word:1.5)`, `word++`, embeddings или LoRA-ссылки — всё это попадает в промпт как литеральный мусор. Используй «with emphasis on» или «with a focus on» для усиления, и регулируй приоритет порядком слов.
3. Quality-бустеры «masterpiece, best quality, 8K»
В отличие от Stable Diffusion, у FLUX.1 эти фразы почти не влияют на результат. Конкретные камерные термины («85mm at f/1.8», «shallow DOF», «golden hour») и стилевые ссылки («editorial fashion photography», «Frank Frazetta concept art») работают значительно лучше.
4. «White background» в FLUX.1 [dev]
Известная проблема dev-варианта: фраза «white background» вызывает размытые/нечёткие изображения. Описывай фон конкретнее — «a soft grey studio backdrop», «seamless paper background with soft diffused light», «neutral cream-colored backdrop». В pro и schnell проблема не выражена.
5. Конфликтующие стили в одном промпте
«cyberpunk and medieval», «photorealistic watercolor painting», «minimalist detailed» — взаимоисключающие указания сбивают модель. Если нужна стилистическая смесь, опиши её явно: «realistic photography with subtle painterly post-processing», а не как два равновесных стиля.
Примеры до/после
Пример 1
Было
горный пейзаж на рассвете
Стало
A wide-angle view of jagged snow-capped peaks at dawn, mist swirling over the icy ridges. In the foreground, dark pine silhouettes; in the midground, a frozen lake reflecting the sky; in the background, vibrant orange-pink clouds illuminated by first light. Cinematic landscape photography, shot on 24mm lens, deep focus, dramatic warm rim light, restrained cool palette.
Многослойная композиция (foreground/midground/background) даёт модели полную пространственную структуру. Конкретный объектив и освещение заменяют расплывчатое «epic».
Пример 2
Было
vintage bookstore sign with old typography
Стало
A weathered wooden shop sign hanging above a cobblestone street in 1920s Paris. The sign reads "LIBRAIRIE ANCIENNE" in elegant gold serif lettering with a curled border. Soft afternoon light catches the gilded letters. 35mm film photography, shallow depth of field, warm sepia palette, Atget-inspired documentary style.
Кавычки фиксируют точный текст. Конкретная эпоха, шрифт, цвет и фото-стиль дают модели полный визуальный контекст вместо общих понятий «vintage».
Пример 3
Было
photorealistic masterpiece, best quality, 8K, ultra HD, hyperrealistic portrait, beautiful woman
Стало
Editorial portrait of a woman in her thirties with freckles and short dark hair, wearing a cream-colored cashmere sweater. Soft natural light from a north-facing window, shallow depth of field, shot on 85mm lens at f/1.8. Calm contemplative expression, subtle film grain, muted warm palette, fashion editorial style.
Quality-бустеры в FLUX почти не работают. Конкретные камерные термины, тип освещения и стилевая ссылка дают результат в разы лучше, чем стэк прилагательных.