FLUX: как писать промпты, которые модель понимает
Replicate · Обновлено:
FLUX — семейство image-моделей от Black Forest Labs (schnell, dev, pro, 1.1 pro Ultra, FLUX.2, Kontext). Двойной энкодер CLIP + T5-XXL понимает длинные связные описания лучше большинства конкурентов. Оптимальная длина промпта — 50–200 слов на английском, структура — субъект, сцена, освещение, стиль, параметры камеры.
Что умеет FLUX
Главная сила FLUX — понимание естественного описательного языка. Модель обучена на длинных подписях и интерпретирует связный текст значительно точнее, чем модели на одном CLIP. Это даёт преимущество в портретах, пейзажах с многослойной композицией и продуктовой съёмке.
FLUX отлично работает с фото-терминологией: объективы, диафрагма, глубина резкости, типы освещения. Поддерживает текст в изображениях через кавычки, разные арт-стили (от photorealism до акварели и concept art), и многослойные сцены с описанием переднего, среднего и заднего плана.
- Двойной энкодер CLIP + T5-XXL — понимает длинные описания
- До ~2000 токенов промпта, оптимально 50–200 слов
- Несколько вариантов: schnell (быстрая), dev (опенсорс), pro (макс. качество)
- Текст в изображениях через кавычки
- Photo-grade лексика: 85mm, f/2.8, shallow DOF, golden hour
Структура промпта
Оптимальный порядок: [Субъект] + [Детали внешности] + [Сцена/Фон] + [Освещение] + [Стиль/Настроение] + [Камера/Техника] + [Цветовая палитра].
Пиши связные предложения, а не список ключевых слов. «A close-up portrait of a middle-aged man with a thick dark beard, wearing a leather jacket, standing in front of an urban graffiti wall, soft sunlight casting shadows on his face, documentary photography, shot on 85mm lens, warm muted tones» работает значительно лучше, чем «man, beard, leather jacket, graffiti, warm tones».
Используй многослойное описание сцены — передний план, средний, задний. Это даёт модели чёткую пространственную структуру.
Освещение и камера
FLUX отлично понимает фото-терминологию. Указывай конкретное освещение: «golden hour with warm tones», «soft morning light casting long shadows», «studio three-point lighting», «neon glow with cyberpunk palette». Общие фразы вроде «good lighting» дают слабый результат.
Для фотореализма используй параметры камеры: «shot with a 50mm lens at f/2.8, shallow depth of field, blurred background», «wide-angle 24mm, deep focus», «macro photography, extreme close-up». Конкретные технические термины работают в разы лучше, чем общие «8K, ultra HD, hyperrealistic».
Стилизация и художественные ссылки
Конкретные стилевые ссылки бьют абстрактные. «In the style of 1980s cyberpunk» лучше, чем «futuristic». «Inspired by the surrealism of Salvador Dali», «impressionist painting with visible brushstrokes», «editorial fashion photography» — модель распознаёт жанры, эпохи и техники.
FLUX поддерживает широкий стилевой диапазон: photorealism, oil painting, watercolor, concept art, anime, vector illustration. Не смешивай конфликтующие стили в одном промпте — «cyberpunk and medieval» или «photorealistic watercolor» дают непредсказуемый результат. Если нужна стилистическая смесь, опиши её явно.
Типичные ошибки
1. Список ключевых слов вместо связного описания
FLUX обучена на длинных подписях и обрабатывает связный английский лучше любых списков через запятую. «dragon, fire, sky, sunset, mountains, epic» проигрывает «A red dragon breathes fire into a sunset sky over distant mountains, dramatic backlit silhouette». Пиши предложениями.
2. Использование синтаксиса Stable Diffusion
Веса вида `(keyword:1.5)`, `word++`, embeddings или LoRA-ссылки в FLUX не работают и попадают в промпт как литеральный текст. Регулируй приоритеты порядком слов — важное в начало, второстепенное в конец. Для усиления — «with emphasis on» или «with a focus on».
3. Quality-бустеры без конкретики
«masterpiece, best quality, 8K, ultra HD, hyperrealistic» подряд — типичный SD-паттерн, который в FLUX почти не влияет на результат. Конкретные камерные термины («85mm at f/1.8», «shallow DOF», «golden hour») и стилевые ссылки («editorial fashion photography») работают в разы лучше.
4. Конфликтующие стили в одном промпте
«cyberpunk and medieval», «photorealistic watercolor», «minimalist detailed» — взаимоисключающие указания сбивают модель и дают непредсказуемый результат. Если нужна стилистическая смесь, опиши её явно: «realistic photography with subtle painterly post-processing».
5. «White background» в FLUX.1 [dev]
Специфическая проблема dev-варианта: фраза «white background» вызывает размытые, нечёткие изображения. Используй конкретное описание фона — «a soft grey studio backdrop», «seamless paper background, soft diffused light», «neutral cream-colored backdrop». В pro и schnell проблема менее выражена, но конкретика всё равно полезна.
Примеры до/после
Пример 1
Было
красивая девушка на пляже
Стало
A young woman with sun-streaked auburn hair in a flowing white linen dress, standing on a Pacific Northwest beach at golden hour. Wind catches her hair, soft warm light skims her shoulders. Shallow depth of field, shot on 85mm lens at f/1.8, blurred ocean in background, muted coastal palette, editorial fashion photography.
Главное отличие: связное предложение вместо списка ключевиков, конкретный субъект, многослойная сцена (передний/задний план), фото-терминология камеры, конкретное освещение.
Пример 2
Было
fantasy landscape, mountains, dragon, epic, 8k, masterpiece
Стало
A wide-angle view of jagged snow-capped peaks at dawn, mist swirling over the icy ridges. In the foreground, a lone red dragon perches on a stone outcrop looking toward the horizon. Vibrant orange-pink sky behind the range, dramatic warm rim light, cinematic concept art style inspired by Frank Frazetta, deep focus.
Список ключевых слов через запятую FLUX обрабатывает хуже связного описания. Quality-бустеры заменены на конкретный стиль и художественную ссылку, добавлена многослойная композиция.
Пример 3
Было
vintage diner sign
Стало
A weathered neon sign on a brick wall above a roadside diner at twilight. The sign reads "JOE'S DINER" in bold red script letters with cyan accents, some bulbs flickering. Wet asphalt below reflects the neon glow. 35mm film photography, shallow DOF, moody desaturated palette, Edward Hopper atmosphere.
Текст в кавычках — обязательно для рендеринга надписи. Конкретный шрифт, цвет, эпоха и атмосфера дают модели полный визуальный контекст.