GPT Image 2: как писать промпты, которые модель понимает
OpenAI · Обновлено:
GPT Image 2 — image-модель от OpenAI с SOTA-рендерингом текста и thinking mode. Понимает промпт как бриф для дизайнера, обрабатывает слова последовательно (первые слова весят больше) и поддерживает до 16 референсов и 8 связанных изображений за один запрос. Лучше всего работает с английским, но многоязычная поддержка стабильная.
Что умеет GPT Image 2
Главный прорыв модели — точный, читаемый текст внутри изображения: рекламные слоганы, инфографика, UI-мокапы, QR-коды, многоязычная типографика (кириллица, CJK, арабский). Photorealism у GPT Image 2 «нейтральный» — без характерного AI-глянца, что даёт преимущество в moody, overcast и desaturated жанрах.
Модель работает как «думающая»: на сложных промптах она автоматически переключается в thinking mode, может рассуждать, использовать web search и проверять собственный результат. Для простых задач включается Instant mode — быстрая генерация без рассуждений.
- Точный текст в кавычках, многоязычная типографика
- Photorealism без AI-глянца (нейтральная экспозиция)
- До 16 референсных изображений + до 8 связанных кадров за запрос
- Surgical edits через Change / Preserve / Constraints
- Knowledge cutoff декабрь 2025 + web search в thinking mode
Структура промпта
Оптимальный порядок: [Фон/Сцена] + [Субъект] + [Ключевые детали] + [Стиль/Медиум] + [Освещение/Композиция] + [Текст в кавычках] + [Constraints].
Главное правило — главный субъект всегда в начале. Модель обрабатывает токены последовательно, и слова в первых строках получают максимальный визуальный вес. Если зарыть тему в конец абзаца, она потеряет приоритет.
Промпт лучше писать как бриф для дизайнера, а не как набор тегов. Указывай назначение (ad, UI-мокап, инфографика, product shot) — это активирует у модели нужный режим. Формат может быть любым: естественный язык, JSON-структура, инструкция в стиле «делай так».
Edit-шаблон: Change / Preserve / Constraints
Для точечных правок GPT Image 2 даёт surgical editing — когда нужно поменять одно, сохранив всё остальное. Используй фиксированный шаблон:
Change: [что именно меняется] Preserve: [face, identity, pose, lighting, framing, background, geometry, text, layout] Constraints: [no extra objects, no redesign, no logo drift, no watermark]
Для итеративного редактирования повторяй preserve-список на каждой итерации — иначе модель «дрейфует» и начинает менять то, что не просили. Это особенно критично для virtual try-on, замены интерьерных объектов и компоновки из нескольких референсов.
Текст в изображении
GPT Image 2 — лучшая на рынке модель для рендеринга текста в кадре. Правила:
Точный текст всегда в кавычках или ALL CAPS — «Billboard text (EXACT, verbatim): "Fresh and clean"». Для сложных слов (бренды, редкие написания) прописывай по буквам. Указывай шрифт, кегль, цвет, расположение.
Для плотного текста, инфографики и мелкого кегля ставь `quality="high"` — на `medium`/`low` микрошрифт ломается. Работает с латиницей, кириллицей, CJK, хинди, бенгали, арабским. Длинный текст без кавычек модель может исказить или добавить лишние буквы — это известная слабость.
Типичные ошибки
1. Главный субъект зарыт в конце промпта
Модель обрабатывает токены последовательно — первые слова весят максимум, последние почти не влияют на композицию. Если тема статьи в третьем предложении, ракурс и сцена возьмут на себя приоритет. Выноси главный субъект в первое предложение.
2. Длинный текст без кавычек
Если попросить «надпись Fresh and clean на этикетке», модель часто исказит буквы или добавит лишние символы. Точный текст всегда в кавычках или ALL CAPS, с пометкой «EXACT» или «verbatim»: «label text (EXACT): "Fresh and clean"». Это критично для брендинга.
3. Edit-промпт без preserve-блока
«Поменяй фон» без явного «preserve: face, identity, pose» в 7 из 10 случаев меняет ещё и черты лица, позу или освещение. Каждый edit-промпт должен заканчиваться структурированным preserve-списком. Для итеративного редактирования повторяй его на каждой итерации.
4. Студийно-глянцевая лексика для фотореализма
Слова «polished», «staged», «beautiful lighting», «professional shoot» включают характерный AI-глянец. Для candid-фотореализма нужна противоположная лексика: «35mm film», «natural light», «visible pores», «weathered texture», «subtle film grain». GPT Image 2 особенно силён в moody жанрах — не глуши это студийной лексикой.
5. Копирование синтаксиса Midjourney или Stable Diffusion
Параметры вида `--ar 16:9`, `::weight`, `(keyword:1.2)` не работают в GPT Image 2 и попадают в текст промпта как мусор. Размеры задавай явно («1024×1536», «portrait»), вес слов регулируй порядком (важное — в начало), стили — нормальными прилагательными.
Примеры до/после
Пример 1
Было
красивый рекламный баннер бренда одежды с молодыми людьми
Стало
Premium campaign image for youth streetwear brand Thread. Group of friends hanging out on a Brooklyn rooftop at golden hour, street fashion photography cues, clean composition, strong color direction, natural poses. Tagline (exact, in white sans-serif at bottom center): "Yours to Create". photorealistic, 35mm film, shallow DOF, natural color balance. quality="high".
Главное отличие: «бриф для дизайнера» вместо описания. Назначение, конкретные детали сцены, точный текст в кавычках, фотографическая лексика, параметр качества.
Пример 2
Было
замени стулья на деревянные
Стало
In this room photo, Change: replace ONLY the white chairs with chairs made of natural oak wood with visible grain. Preserve: camera angle, room lighting, floor shadows, table position, wall colors, and all surrounding objects. Constraints: no extra furniture, no redesign of the room, no watermark.
Edit-промпт без preserve-блока модель почти всегда трактует как redesign — меняет не только стулья, но и освещение, угол съёмки, окружающие объекты. Явный preserve-список фиксирует контракт.
Пример 3
Было
инфографика про воронку продаж
Стало
Pitch-deck slide titled "Sales Funnel Q4 2026". Show a 5-stage funnel: "Leads (12,400)", "Qualified (3,200)", "Demo (980)", "Proposal (310)", "Closed Won (87)". Use Inter bold sans-serif for stage labels, brand color #9CFB51 for highlights on Closed Won, white background, clean grid alignment. Bottom-right corner: brand logo placeholder labeled "OPTEN". quality="high".
Цифры прямо в промпте + явный шрифт + цветовая палитра + макет = модель собирает почти production-ready слайд. Без указания шрифта и `quality="high"` мелкие лейблы расплываются.