GPT Image 1: как писать промпты, которые модель понимает
OpenAI · Обновлено:
GPT Image 1 — image-модель от OpenAI с естественным языковым промптингом и сильным рендерингом текста в кадре. Работает через ChatGPT и API, поддерживает разрешения до 1536×1024, прозрачный фон, три уровня качества и image-to-image редактирование. Промпт длиной ~500 слов оптимален.
Что умеет GPT Image 1
Главные сильные стороны — точный читаемый текст в кадре (вывески, меню, лейблы, UI-мокапы), высокая верность промпту, фотореализм через камерные термины и встроенная поддержка прозрачного фона (идеально для стикеров и ассетов).
В ChatGPT модель учитывает мультитурновый контекст — можно итеративно дорабатывать изображение в одном диалоге. В API каждый запрос автономный. Поддерживается image-to-image редактирование через отдельный endpoint.
- Разрешения 1024×1024, 1536×1024, 1024×1536
- Форматы PNG, JPEG, WebP, отдельный параметр прозрачности
- Качество high / medium / low
- Image-to-image редактирование через API
- Длина промпта до ~4000 токенов, оптимально до 500 слов
Структура промпта
Слоистая формула: [Визуальный медиум/Стиль] + [Субъект] + [Окружение/Сцена] + [Освещение/Настроение] + [Композиция/Ракурс] + [Детали и текстуры] + [Ограничения/Исключения].
Модель понимает естественный язык — никаких тегов и специального синтаксиса. Описывай как рассказ, но с конкретными визуальными деталями.
Конкретика — главное правило. «Туманная горная долина на рассвете, золотой свет пробивается сквозь сосны, отражаясь в зеркально гладком озере» работает в десятки раз лучше, чем «красивый пейзаж». Минимум 2-3 описательных детали на сцену: цвет, текстура, материал, форма.
Камера и фотореализм
Камерные термины работают значительно лучше, чем общие «8K, ultra-detailed».
Крупность: close-up, medium shot, wide angle, aerial view. Линзы: 50mm, 35mm, macro, fisheye. Фокус: shallow depth of field, bokeh, sharp focus throughout. Ракурс: low angle, bird's eye view, eye level, Dutch angle.
Для освещения избегай общих слов «good lighting». Используй конкретику: «dramatic side lighting creating strong shadows», «soft box lighting eliminating harsh shadows», «golden hour», «fluorescent overhead», «neon glow», «candlelight». Чем точнее описание света — тем точнее настроение.
Текст в изображении и итеративная работа
GPT Image 1 — топ-класс по тексту в кадре. Точный текст всегда в кавычках или CAPS: `"OPEN 24/7"`, `"CAFE LUNA"`. Указывай стиль шрифта («elegant handwriting», «bold sans-serif», «neon sign lettering»), размер, цвет, расположение. Для сложных слов (бренды, редкие написания) прописывай побуквенно: `C-A-F-E L-U-N-A`.
В ChatGPT используй итеративный подход. Начни с базового промпта, затем уточняй маленькими шагами: «Same scene, but make the lighting warmer», «Add a person sitting on the bench on the left», «Remove the tree in the background». Лучше серия точных правок, чем перегруженный один промпт.
Типичные ошибки
1. Синтаксис Stable Diffusion
Веса вида `(word:1.5)`, `(masterpiece:1.3)`, теги через запятую `1girl, masterpiece, best quality`, embeddings, LoRA-ссылки — GPT Image 1 работает с естественным языком, не с тегами. Эти конструкции попадают в промпт как литеральный мусор или ухудшают результат.
2. Quality-бустеры «8K, ultra HD, masterpiece»
Общие восхваления качества почти не влияют на GPT Image 1. Конкретные камерные термины («85mm at f/1.8», «shallow DOF», «golden hour»), стилевые ссылки и описания освещения работают в разы лучше любых quality-стэков.
3. Отсутствие окружения
«Красная спортивная машина» и «красная спортивная машина на пустом шоссе в пустыне с горами на горизонте» — кардинально разные результаты. Без контекста модель решает сама, и результат непредсказуемый. Минимальное описание фона значительно улучшает кадр.
4. Противоречивые стили в одном промпте
«Photorealistic cartoon», «minimalist detailed», «realistic stylized» — конфликт без объяснения, как стили должны сочетаться. Модель не знает что приоритезировать. Если нужна стилевая смесь, опиши её явно: «realistic photography with subtle painterly post-processing».
5. Негативы без позитивной альтернативы
«Don't draw background», «no people, no text, no clutter» — менее эффективны, чем позитивное описание желаемого. «Transparent background» работает лучше, чем «no background». «Clean composition» бьёт «no clutter». Описывай ЧТО хочешь, а не чего не хочешь.
Примеры до/после
Пример 1
Было
красивый портрет
Стало
Editorial portrait of a woman in her thirties with freckles and short auburn hair, wearing a cream-colored cashmere sweater. Soft natural light from a north-facing window, calm contemplative expression, shallow depth of field. Shot on 85mm lens at f/1.8, subtle film grain, muted warm palette, fashion editorial style.
Конкретный субъект, описание внешности, конкретное освещение, камерные термины, стилевая ссылка. «Красивый» — пустое слово.
Пример 2
Было
вывеска кофейни на старой кирпичной стене
Стало
A weathered metal café sign mounted on a red brick wall in a 1920s Brooklyn neighborhood. The sign reads "BREW & BEAN" in bold cream-colored sans-serif lettering with a small coffee cup icon. Warm afternoon light catches the metal, soft shadows on the brick. Documentary photography, shallow depth of field, muted warm palette.
Точный текст в кавычках, конкретный шрифт и цвет, эпоха, материал поверхности, тип освещения. Без этого модель додумывает все детали сама.
Пример 3
Было
(masterpiece:1.5), (best quality:1.3), 1girl, blue dress, beautiful, garden, photorealistic, 8k
Стало
A young woman in her twenties wearing a flowing pale blue linen dress, walking through a sunlit cottage garden in early summer. Soft natural light, golden hour warmth, shallow depth of field. Shot on 85mm lens at f/1.8, candid documentary style, subtle film grain.
Веса через скобки `(word:1.5)` и теги через запятую — синтаксис Stable Diffusion. GPT Image 1 их не поддерживает. Связное описание с камерными терминами даёт целевой результат.