GPT Image: как писать промпты, которые модель понимает
OpenAI · Обновлено:
GPT Image — семейство image-моделей OpenAI (1, 1.5, 2). Понимает естественный язык, обрабатывает промпт как рассказ с визуальной конкретикой, поддерживает разрешения 1024×1024, 1536×1024 и 1024×1536, прозрачный фон и три уровня качества. Сильная сторона — рендеринг читаемого текста в кадре.
Что умеет GPT Image
Главная сила семейства — точный текст внутри изображения: вывески, меню, лейблы, UI-мокапы, плакаты. Модель понимает шрифт, размер, цвет, расположение и многоязычную типографику.
GPT Image работает с естественным языком, а не с тегами. Поддерживает прозрачный фон (отдельный параметр), три уровня качества (high/medium/low), широкий стилевой диапазон от photorealism до акварели и concept art. Контент-политика OpenAI одна из самых строгих — NSFW, реальные знаменитости и насилие заблокированы.
- Разрешения 1024×1024, 1536×1024, 1024×1536
- Форматы вывода PNG, JPEG, WebP
- Прозрачность через отдельный параметр
- Три уровня качества: high / medium / low
- Топ-класс по рендерингу текста в кадре
Структура промпта
Общая формула: [Визуальный медиум] + [Субъект] + [Окружение/Сцена] + [Освещение/Настроение] + [Композиция] + [Детали] + [Ограничения].
Ключевой принцип: описывай как рассказ, но с визуальной конкретикой. «Туманная горная долина на рассвете, золотой свет пробивается сквозь сосны, отражаясь в зеркально гладком озере» бьёт «красивый пейзаж» в десятки раз.
Начинай с визуального медиума: «photograph», «watercolor painting», «3D render», «technical illustration», «vintage poster». Это задаёт модели общий «режим» генерации.
Камера и освещение для photorealism
Камерные термины работают значительно лучше, чем общие фразы о качестве вроде «8K, ultra HD».
Линзы: 35mm, 50mm, 85mm, macro. Глубина: shallow depth of field, bokeh, sharp focus. Ракурс: low angle, bird's eye view, eye level, Dutch angle. Тип съёмки: candid, portrait, product shot, aerial.
Для освещения избегай общих слов «good lighting». Используй конкретику: «dramatic side lighting creating strong shadows», «soft box lighting eliminating harsh shadows», «golden hour», «fluorescent overhead», «neon glow», «candlelight». Чем точнее описание света, тем точнее настроение и атмосфера в кадре.
Текст в изображении
GPT Image — одна из лучших моделей для текста в картинках. Правила:
Точный текст — всегда в кавычках: `"CAFE LUNA"`, `"OPEN 24/7"`. Указывай стиль шрифта: «elegant handwriting», «bold sans-serif», «neon sign lettering». Расположение: «centered at the top», «on the wooden sign above the door». Для сложных или редких слов прописывай по буквам: `C-A-F-E L-U-N-A`.
Для плотного текста (меню, инфографика) ставь `quality="high"`. На low/medium мелкий шрифт может ломаться. Указывай typeface, размер, цвет — модель использует это для рендеринга.
Типичные ошибки
1. Только абстрактные прилагательные
«Beautiful, amazing, stunning, gorgeous» не дают модели визуальной информации — нет цвета, текстуры, материала, формы. Заменяй на конкретику: «weathered brick wall, warm afternoon light, shallow depth of field». Минимум 2-3 описательных детали на сцену.
2. Синтаксис Stable Diffusion
Веса вида `(word:1.5)`, теги через запятую, `1girl, masterpiece, best quality`, embeddings, LoRA-ссылки — GPT Image работает с естественным языком, не с тегами. Эти конструкции будут проигнорированы или ухудшат результат. Пиши предложениями.
3. Quality-бустеры «8K, ultra HD, masterpiece»
Общие восхваления качества почти не влияют на GPT Image. Конкретные камерные термины («85mm, shallow DOF, golden hour»), стилевые ссылки («editorial photography», «watercolor illustration») и описания освещения работают в разы лучше любых quality-стэков.
4. Отсутствие визуального медиума
Не указав фотография это, иллюстрация или 3D, ты оставляешь решение модели — результат непредсказуемый. Начинай промпт с медиума: «photograph», «watercolor painting», «3D render», «technical illustration», «vintage poster», «sticker design». Это задаёт общий режим генерации.
5. Противоречивые стили в одном промпте
«Photorealistic cartoon», «minimalist detailed», «realistic stylized» — конфликт без объяснения. Модель не знает как совместить взаимоисключающие указания. Если нужна стилевая смесь, опиши её явно: «realistic rendering with subtle anime-inspired proportions».
Примеры до/после
Пример 1
Было
красивый рыжий кот
Стало
A close-up portrait of a ginger tabby cat sitting on an old wooden windowsill, warm afternoon light filtering through lace curtains. Soft autumn garden visible through the window in soft bokeh. Shot on 50mm lens, shallow depth of field, photorealistic, muted warm palette.
Главное отличие: визуальная конкретика вместо общего прилагательного. Конкретное окружение, камерные термины, освещение, медиум.
Пример 2
Было
кофейня с меню
Стало
A chalkboard café menu mounted on an exposed brick wall, listing "Espresso $3", "Flat White $4.50", and "Lavender Latte $5" in elegant white chalk handwriting. Warm pendant lighting from above, shallow depth of field, blurred coffee shop interior in the background. Editorial café photography, quality="high".
Точный текст в кавычках, конкретный шрифт, расположение, освещение. `quality="high"` для чёткого мелкого текста — обязательно.
Пример 3
Было
masterpiece, best quality, 8K, ultra HD, hyper-realistic, 1girl, beautiful, dress, garden
Стало
A young woman in her twenties wearing a flowing pale yellow linen dress, walking through a sunlit cottage garden in early summer. Soft natural light, golden hour warmth, shallow depth of field. Shot on 85mm lens at f/1.8, candid documentary style, subtle film grain, muted earthy palette.
Stable Diffusion-стиль (теги через запятую, quality-бустеры, `1girl`) GPT Image игнорирует или обрабатывает плохо. Связное описание с камерными терминами даёт целевой результат.