Image

GPT Image 1: как писать промпты, которые модель понимает

OpenAI · Обновлено:

GPT Image 1 — image-модель от OpenAI с естественным языковым промптингом и сильным рендерингом текста в кадре. Работает через ChatGPT и API, поддерживает разрешения до 1536×1024, прозрачный фон, три уровня качества и image-to-image редактирование. Промпт длиной ~500 слов оптимален.

Что умеет GPT Image 1

Главные сильные стороны — точный читаемый текст в кадре (вывески, меню, лейблы, UI-мокапы), высокая верность промпту, фотореализм через камерные термины и встроенная поддержка прозрачного фона (идеально для стикеров и ассетов).

В ChatGPT модель учитывает мультитурновый контекст — можно итеративно дорабатывать изображение в одном диалоге. В API каждый запрос автономный. Поддерживается image-to-image редактирование через отдельный endpoint.

  • Разрешения 1024×1024, 1536×1024, 1024×1536
  • Форматы PNG, JPEG, WebP, отдельный параметр прозрачности
  • Качество high / medium / low
  • Image-to-image редактирование через API
  • Длина промпта до ~4000 токенов, оптимально до 500 слов

Структура промпта

Слоистая формула: [Визуальный медиум/Стиль] + [Субъект] + [Окружение/Сцена] + [Освещение/Настроение] + [Композиция/Ракурс] + [Детали и текстуры] + [Ограничения/Исключения].

Модель понимает естественный язык — никаких тегов и специального синтаксиса. Описывай как рассказ, но с конкретными визуальными деталями.

Конкретика — главное правило. «Туманная горная долина на рассвете, золотой свет пробивается сквозь сосны, отражаясь в зеркально гладком озере» работает в десятки раз лучше, чем «красивый пейзаж». Минимум 2-3 описательных детали на сцену: цвет, текстура, материал, форма.

Камера и фотореализм

Камерные термины работают значительно лучше, чем общие «8K, ultra-detailed».

Крупность: close-up, medium shot, wide angle, aerial view. Линзы: 50mm, 35mm, macro, fisheye. Фокус: shallow depth of field, bokeh, sharp focus throughout. Ракурс: low angle, bird's eye view, eye level, Dutch angle.

Для освещения избегай общих слов «good lighting». Используй конкретику: «dramatic side lighting creating strong shadows», «soft box lighting eliminating harsh shadows», «golden hour», «fluorescent overhead», «neon glow», «candlelight». Чем точнее описание света — тем точнее настроение.

Текст в изображении и итеративная работа

GPT Image 1 — топ-класс по тексту в кадре. Точный текст всегда в кавычках или CAPS: `"OPEN 24/7"`, `"CAFE LUNA"`. Указывай стиль шрифта («elegant handwriting», «bold sans-serif», «neon sign lettering»), размер, цвет, расположение. Для сложных слов (бренды, редкие написания) прописывай побуквенно: `C-A-F-E L-U-N-A`.

В ChatGPT используй итеративный подход. Начни с базового промпта, затем уточняй маленькими шагами: «Same scene, but make the lighting warmer», «Add a person sitting on the bench on the left», «Remove the tree in the background». Лучше серия точных правок, чем перегруженный один промпт.

Типичные ошибки

  1. 1. Синтаксис Stable Diffusion

    Веса вида `(word:1.5)`, `(masterpiece:1.3)`, теги через запятую `1girl, masterpiece, best quality`, embeddings, LoRA-ссылки — GPT Image 1 работает с естественным языком, не с тегами. Эти конструкции попадают в промпт как литеральный мусор или ухудшают результат.

  2. 2. Quality-бустеры «8K, ultra HD, masterpiece»

    Общие восхваления качества почти не влияют на GPT Image 1. Конкретные камерные термины («85mm at f/1.8», «shallow DOF», «golden hour»), стилевые ссылки и описания освещения работают в разы лучше любых quality-стэков.

  3. 3. Отсутствие окружения

    «Красная спортивная машина» и «красная спортивная машина на пустом шоссе в пустыне с горами на горизонте» — кардинально разные результаты. Без контекста модель решает сама, и результат непредсказуемый. Минимальное описание фона значительно улучшает кадр.

  4. 4. Противоречивые стили в одном промпте

    «Photorealistic cartoon», «minimalist detailed», «realistic stylized» — конфликт без объяснения, как стили должны сочетаться. Модель не знает что приоритезировать. Если нужна стилевая смесь, опиши её явно: «realistic photography with subtle painterly post-processing».

  5. 5. Негативы без позитивной альтернативы

    «Don't draw background», «no people, no text, no clutter» — менее эффективны, чем позитивное описание желаемого. «Transparent background» работает лучше, чем «no background». «Clean composition» бьёт «no clutter». Описывай ЧТО хочешь, а не чего не хочешь.

Примеры до/после

Пример 1

Было

красивый портрет

Стало

Editorial portrait of a woman in her thirties with freckles and short auburn hair, wearing a cream-colored cashmere sweater. Soft natural light from a north-facing window, calm contemplative expression, shallow depth of field. Shot on 85mm lens at f/1.8, subtle film grain, muted warm palette, fashion editorial style.

Конкретный субъект, описание внешности, конкретное освещение, камерные термины, стилевая ссылка. «Красивый» — пустое слово.

Пример 2

Было

вывеска кофейни на старой кирпичной стене

Стало

A weathered metal café sign mounted on a red brick wall in a 1920s Brooklyn neighborhood. The sign reads "BREW & BEAN" in bold cream-colored sans-serif lettering with a small coffee cup icon. Warm afternoon light catches the metal, soft shadows on the brick. Documentary photography, shallow depth of field, muted warm palette.

Точный текст в кавычках, конкретный шрифт и цвет, эпоха, материал поверхности, тип освещения. Без этого модель додумывает все детали сама.

Пример 3

Было

(masterpiece:1.5), (best quality:1.3), 1girl, blue dress, beautiful, garden, photorealistic, 8k

Стало

A young woman in her twenties wearing a flowing pale blue linen dress, walking through a sunlit cottage garden in early summer. Soft natural light, golden hour warmth, shallow depth of field. Shot on 85mm lens at f/1.8, candid documentary style, subtle film grain.

Веса через скобки `(word:1.5)` и теги через запятую — синтаксис Stable Diffusion. GPT Image 1 их не поддерживает. Связное описание с камерными терминами даёт целевой результат.

Частые вопросы

Чем GPT Image 1 отличается от GPT Image 1.5 и 2?
GPT Image 1 — базовая модель с хорошим рендерингом текста и фотореализмом. GPT Image 1.5 принёс улучшенный фотореализм, сохранение лиц при редактировании, multi-image вход, параметр input_fidelity. GPT Image 2 добавил SOTA-рендеринг текста (CJK, кириллица, арабский), thinking mode с web search и до 16 референсов. Для большинства новых задач 1.5 и 2 — лучший выбор.
Какая оптимальная длина промпта?
До 500 слов — золотая середина. Технический лимит около 4000 токенов, но качество начинает падать после ~500. Слишком короткий промпт (<5 слов) даёт непредсказуемый результат — модель додумывает слишком много. Слишком длинный — перегружает модель, и часть деталей игнорируется. Плотное описание из 100-200 слов работает лучше.
Как добиться photorealism без AI-look?
Используй фото-терминологию: «35mm film», «50mm lens», «shallow DOF», «natural color balance», «subtle film grain». Описывай реальные текстуры — «visible pores», «weathered skin», «fabric wear». Избегай слов «polished», «staged», «beautiful lighting» — они активируют студийный глянец. Явное «photorealistic» в начале промпта помогает.
Поддерживает ли модель прозрачный фон?
Да, прозрачность — встроенная функция через отдельный параметр API/UI. Идеально для стикеров, иконок, персонажей, ассетов. В промпте дополнительно можно указать «transparent background», но именно параметр гарантирует чистую альфа-маску. Для стикеров типичная формула: «cute cartoon knight sticker, thick lines, white outline, transparent background».
Можно ли редактировать существующее изображение?
Да, через image-to-image endpoint. Передай исходник плюс промпт с инструкцией изменения. Указывай ЧТО менять и ЧТО сохранять: «Change only the background to a beach, keep the person, pose, and lighting unchanged». Без явного preserve-блока модель может изменить больше, чем требуется. Это особенно важно для итеративных правок.
Почему модель отказывается генерировать?
У OpenAI один из самых строгих модераторов. Триггерится не только на явный NSFW, но и на комбинации невинных слов в подозрительном контексте. Реальные celebrities и узнаваемые IP-лица заблокированы политикой. Если получаешь refusal — переформулируй: убери triggering combo, замени контекст на editorial/fashion, используй вымышленных персонажей.
Поддерживается ли Opten для GPT Image 1?
Да, расширение Opten автоматически распознаёт GPT Image 1 внутри ChatGPT и API-платформ. Оно оценивает промпты по структуре, описанной выше: проверяет наличие визуального медиума, конкретики, камерных терминов, кавычек для текста, отсутствие SD-синтаксиса и quality-бустеров. Одним кликом можно получить rewrite в правильной структуре.

Похожие модели

Готов писать промпты для GPT Image 1 в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время