Image

GPT Image: как писать промпты, которые модель понимает

OpenAI · Обновлено:

GPT Image — семейство image-моделей OpenAI (1, 1.5, 2). Понимает естественный язык, обрабатывает промпт как рассказ с визуальной конкретикой, поддерживает разрешения 1024×1024, 1536×1024 и 1024×1536, прозрачный фон и три уровня качества. Сильная сторона — рендеринг читаемого текста в кадре.

Что умеет GPT Image

Главная сила семейства — точный текст внутри изображения: вывески, меню, лейблы, UI-мокапы, плакаты. Модель понимает шрифт, размер, цвет, расположение и многоязычную типографику.

GPT Image работает с естественным языком, а не с тегами. Поддерживает прозрачный фон (отдельный параметр), три уровня качества (high/medium/low), широкий стилевой диапазон от photorealism до акварели и concept art. Контент-политика OpenAI одна из самых строгих — NSFW, реальные знаменитости и насилие заблокированы.

  • Разрешения 1024×1024, 1536×1024, 1024×1536
  • Форматы вывода PNG, JPEG, WebP
  • Прозрачность через отдельный параметр
  • Три уровня качества: high / medium / low
  • Топ-класс по рендерингу текста в кадре

Структура промпта

Общая формула: [Визуальный медиум] + [Субъект] + [Окружение/Сцена] + [Освещение/Настроение] + [Композиция] + [Детали] + [Ограничения].

Ключевой принцип: описывай как рассказ, но с визуальной конкретикой. «Туманная горная долина на рассвете, золотой свет пробивается сквозь сосны, отражаясь в зеркально гладком озере» бьёт «красивый пейзаж» в десятки раз.

Начинай с визуального медиума: «photograph», «watercolor painting», «3D render», «technical illustration», «vintage poster». Это задаёт модели общий «режим» генерации.

Камера и освещение для photorealism

Камерные термины работают значительно лучше, чем общие фразы о качестве вроде «8K, ultra HD».

Линзы: 35mm, 50mm, 85mm, macro. Глубина: shallow depth of field, bokeh, sharp focus. Ракурс: low angle, bird's eye view, eye level, Dutch angle. Тип съёмки: candid, portrait, product shot, aerial.

Для освещения избегай общих слов «good lighting». Используй конкретику: «dramatic side lighting creating strong shadows», «soft box lighting eliminating harsh shadows», «golden hour», «fluorescent overhead», «neon glow», «candlelight». Чем точнее описание света, тем точнее настроение и атмосфера в кадре.

Текст в изображении

GPT Image — одна из лучших моделей для текста в картинках. Правила:

Точный текст — всегда в кавычках: `"CAFE LUNA"`, `"OPEN 24/7"`. Указывай стиль шрифта: «elegant handwriting», «bold sans-serif», «neon sign lettering». Расположение: «centered at the top», «on the wooden sign above the door». Для сложных или редких слов прописывай по буквам: `C-A-F-E L-U-N-A`.

Для плотного текста (меню, инфографика) ставь `quality="high"`. На low/medium мелкий шрифт может ломаться. Указывай typeface, размер, цвет — модель использует это для рендеринга.

Типичные ошибки

  1. 1. Только абстрактные прилагательные

    «Beautiful, amazing, stunning, gorgeous» не дают модели визуальной информации — нет цвета, текстуры, материала, формы. Заменяй на конкретику: «weathered brick wall, warm afternoon light, shallow depth of field». Минимум 2-3 описательных детали на сцену.

  2. 2. Синтаксис Stable Diffusion

    Веса вида `(word:1.5)`, теги через запятую, `1girl, masterpiece, best quality`, embeddings, LoRA-ссылки — GPT Image работает с естественным языком, не с тегами. Эти конструкции будут проигнорированы или ухудшат результат. Пиши предложениями.

  3. 3. Quality-бустеры «8K, ultra HD, masterpiece»

    Общие восхваления качества почти не влияют на GPT Image. Конкретные камерные термины («85mm, shallow DOF, golden hour»), стилевые ссылки («editorial photography», «watercolor illustration») и описания освещения работают в разы лучше любых quality-стэков.

  4. 4. Отсутствие визуального медиума

    Не указав фотография это, иллюстрация или 3D, ты оставляешь решение модели — результат непредсказуемый. Начинай промпт с медиума: «photograph», «watercolor painting», «3D render», «technical illustration», «vintage poster», «sticker design». Это задаёт общий режим генерации.

  5. 5. Противоречивые стили в одном промпте

    «Photorealistic cartoon», «minimalist detailed», «realistic stylized» — конфликт без объяснения. Модель не знает как совместить взаимоисключающие указания. Если нужна стилевая смесь, опиши её явно: «realistic rendering with subtle anime-inspired proportions».

Примеры до/после

Пример 1

Было

красивый рыжий кот

Стало

A close-up portrait of a ginger tabby cat sitting on an old wooden windowsill, warm afternoon light filtering through lace curtains. Soft autumn garden visible through the window in soft bokeh. Shot on 50mm lens, shallow depth of field, photorealistic, muted warm palette.

Главное отличие: визуальная конкретика вместо общего прилагательного. Конкретное окружение, камерные термины, освещение, медиум.

Пример 2

Было

кофейня с меню

Стало

A chalkboard café menu mounted on an exposed brick wall, listing "Espresso $3", "Flat White $4.50", and "Lavender Latte $5" in elegant white chalk handwriting. Warm pendant lighting from above, shallow depth of field, blurred coffee shop interior in the background. Editorial café photography, quality="high".

Точный текст в кавычках, конкретный шрифт, расположение, освещение. `quality="high"` для чёткого мелкого текста — обязательно.

Пример 3

Было

masterpiece, best quality, 8K, ultra HD, hyper-realistic, 1girl, beautiful, dress, garden

Стало

A young woman in her twenties wearing a flowing pale yellow linen dress, walking through a sunlit cottage garden in early summer. Soft natural light, golden hour warmth, shallow depth of field. Shot on 85mm lens at f/1.8, candid documentary style, subtle film grain, muted earthy palette.

Stable Diffusion-стиль (теги через запятую, quality-бустеры, `1girl`) GPT Image игнорирует или обрабатывает плохо. Связное описание с камерными терминами даёт целевой результат.

Частые вопросы

Чем отличаются версии GPT Image (1, 1.5, 2)?
GPT Image 1 — базовая модель с хорошим рендерингом текста и фотореализмом. GPT Image 1.5 — улучшенный фотореализм, сохранение лиц при редактировании, более надёжный текст, multi-image вход, параметр input_fidelity. GPT Image 2 — SOTA-рендеринг текста (CJK, кириллица, арабский), thinking mode с web search, photorealism без AI-глянца, до 16 референсов. Для production задач 2 — однозначный апгрейд.
Как добиться photorealism без AI-look?
Используй фото-терминологию: «35mm film», «50mm lens», «shallow DOF», «natural color balance», «subtle film grain». Описывай реальные текстуры — «visible pores», «weathered skin», «fabric wear». Избегай слов «polished», «staged», «beautiful lighting» — они активируют студийный глянец. Явное «photorealistic» в начале промпта помогает.
На каком языке писать промпты?
Английский даёт самый стабильный результат — модели обучены преимущественно на нём. Но GPT Image многоязычная и понимает естественный язык на русском, китайском, корейском. Для production-промптов рекомендуется английский; для экспериментов и личных задач русский работает. Текст в самом изображении можно просить на любом языке.
Как сделать прозрачный фон?
Используй явный параметр прозрачности в API/UI — отдельный flag «background: transparent» или эквивалент в выбранной платформе. В промпте можно дополнительно указать «transparent background», но именно параметр гарантирует чистую альфа-маску. Идеально для стикеров, иконок и ассетов без фона.
Когда использовать quality="high"?
Для плотного текста, мелких надписей в инфографике, портретов крупным планом, identity-sensitive редактирования и любых сцен где важна тонкая деталь (текстура кожи, шрифт, мелкий узор). `medium` — дефолт для большинства задач, разница в скорости заметна. `low` — для превью, mass generation и A/B-тестов.
Почему GPT Image отказывается генерировать?
У OpenAI один из самых строгих модераторов. Триггерится не только на явный NSFW, но и на комбинации невинных слов в подозрительном контексте. Реальные celebrities и узнаваемые IP-лица заблокированы политикой. Если получаешь refusal — переформулируй: убери triggering combo, замени контекст на editorial/fashion, не пытайся обмануть фильтр эвфемизмами (он семантический, не keyword-based).
Поддерживается ли Opten для GPT Image?
Да, расширение Opten автоматически распознаёт все версии GPT Image (1, 1.5, 2) внутри ChatGPT и поддерживаемых платформ. Оно оценивает промпты по структуре, описанной выше: проверяет наличие визуального медиума, конкретики, камерных терминов для photorealism, кавычек для текста, отсутствие SD-синтаксиса. Одним кликом можно получить rewrite в правильной структуре.

Похожие модели

Готов писать промпты для GPT Image (General) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время