Гайд

Как писать промпты для GPT Image 2: 5 шагов от случайной генерации к точному результату

Влад Воронежцев · · 8 мин чтения

Обложка гайда про структурированные промпты для GPT Image 2

GPT Image 2 — «думающая» модель OpenAI. Она обрабатывает промпт последовательно: то что написано в начале, имеет наибольший визуальный вес. В отличие от Midjourney, которая хорошо понимает тег-soup, и Nano Banana, у которой яркая «бабблгам»-экспозиция по умолчанию, GPT Image 2 ждёт структурированный бриф с указанием назначения и спокойную нейтральную палитру. Если писать ей промпты как Midjourney — половина кредитов уходит в шум. Эти 5 шагов превращают случайную генерацию в предсказуемый результат на любом запросе: от рекламного баннера до infographic-слайда с плотным многоязычным текстом.

  1. 1.

    Структура важнее тегов

    GPT Image 2 читает промпт сверху вниз и присваивает первому абзацу максимальный вес. Если главный субъект «похоронен» в конце абзаца — модель его не выделит и кадр получится про что-то другое. Рабочий порядок: [Фон/Сцена] → [Субъект] → [Ключевые детали] → [Стиль/Медиум] → [Освещение/Композиция] → [Текст в кавычках] → [Constraints — что сохранить, чего избежать]. Формат блоков может быть любым — естественный язык, JSON-подобная структура, инструкции по пунктам — это всё работает. Главное: намерение и ограничения должны быть в первых 30-40 словах. Тег-soup в стиле Stable Diffusion (`girl, redhair, summer, masterpiece, 8k, octane render`) для GPT Image 2 не работает: модель попытается их использовать, но без понимания иерархии результат будет случайным.

    Было

    summer, girl, red hair, beach, golden hour, cinematic, 35mm, photorealistic, masterpiece

    Стало

    Candid photograph: a young woman with red hair walking along an empty beach at golden hour. Subject centered, looking away from camera. Photorealistic, 35mm film, shallow depth of field, warm natural light, subtle film grain.
  2. 2.

    Пишите как бриф для дизайнера

    Главный лайфхак: указывайте назначение кадра. Не «красивая картинка с продуктом», а «премиальный кампания-кадр для streetwear-бренда Thread». Не «UI экран», а «iPhone mockup для onboarding-флоу финтех-приложения». Назначение активирует у модели правильный набор шаблонов: реклама подразумевает чёткую композицию и место под таглайн; pitch-deck слайд — сетку и читаемые цифры; product shot — нейтральный фон и точное освещение материала. Если назначение не объявлено — модель угадывает, и каждый раз по-разному. Это самая частая причина того, что один и тот же промпт даёт три разных результата подряд. Дополнительно: укажите аудиторию или контекст использования («для презентации инвесторам», «для соцсетей подростковой аудитории») — модель адаптирует тон визуально.

    Было

    красивое рекламное изображение нового смартфона

    Стало

    Premium product campaign image for "Aurora" smartphone (mid-range, target audience: 25-35 urban professionals). Hero shot on a neutral grey gradient background, soft three-point studio lighting, phone tilted 15° to show edge profile, subtle shadow. Tagline area on left third (reserve empty space). Render once, integrated lifestyle cue: faint coffee cup blur in background.
  3. 3.

    Точный текст всегда в кавычках

    GPT Image 2 — SOTA по рендерингу текста внутри изображений (это её главный прорыв vs Midjourney и Stable Diffusion). Но если не заключить точный текст в кавычки, модель воспринимает слова как описание сцены и часто искажает буквы, добавляет лишние символы или путает регистр. Правило: всё что должно появиться на картинке буквально — пишется в `"..."` или ALL CAPS. Указывайте шрифт (`bold sans-serif, Inter`), кегль (`large headline`), цвет и расположение (`centered top third`). Для редких слов, брендов или иностранных написаний — прописывайте по буквам в скобках. Для мелкого или плотного текста (легенды графиков, юридический мелочный шрифт) обязательно ставьте `quality="high"` — на `medium` и `low` микрошрифт будет с артефактами. Многоязычная поддержка: текст можно просить на кириллице, китайском, японском, корейском, хинди, бенгали, арабском — все рендерятся чисто.

    Было

    billboard with text Fresh and Clean about a cleaning product, modern design

    Стало

    Outdoor billboard for a cleaning product brand. Billboard text (EXACT, verbatim, no extra characters, no logo drift): "Fresh and Clean". Typography: bold sans-serif, Inter, white on deep teal background, centered, large size. Below the tagline (smaller, 30% of headline size): "Available nationwide". Quality: high.
  4. 4.

    Шаблон Change / Preserve / Constraints для редактирования

    Когда нужно поменять одно, сохранив остальное — без эксплицитного preserve-блока модель «дрейфует»: меняет лицо вместе с одеждой, освещение вместе с фоном, ракурс вместе с погодой. Шаблон для surgical edits: `Change: [что меняется]` / `Preserve: [лицо, поза, освещение, ракурс, фон, геометрия, текст, layout]` / `Constraints: [no extra objects, no redesign, no logo drift, no watermark]`. Преимущество шаблона — он явно блокирует drift. Особенно критично для virtual try-on (замена одежды на человеке), интерьерной замены (один предмет мебели на другой), смены погоды и сезона. На каждой итерации повторяйте preserve-список — иначе при 3-4 проходе модель забывает что нужно было сохранить идентичность, и постепенно «перерисовывает» персонажа.

    Было

    make her hair red

    Стало

    Change: hair color from brown to natural red (auburn).
    Preserve: face, facial features, skin tone, eye color, expression, pose, lighting direction, background, clothing, all other identity markers.
    Constraints: no extra objects, no redesign of any element except hair, no watermark, no logo drift.
  5. 5.

    Итерация вместо overload

    Часто хочется впихнуть все требования в один промпт: и стиль, и свет, и текст, и constraints, и aspect ratio, и сохранение identity. Так делать нельзя — модель не может одновременно держать в голове 15 ортогональных требований, и одно из них «провисает» (обычно — текст или identity). Правильный workflow: чистый базовый промпт → оценка результата → точечная правка одной осью. Примеры одношаговых правок: `make lighting warmer`, `remove the extra tree on the left`, `replace the typography with Inter bold`, `restore the original background`. Это идёт намного быстрее чем переписывать промпт с нуля. Параметр `quality="high"` включайте только когда оно реально нужно (плотный текст, портреты крупным планом, identity-sensitive editing) — `medium` подходит для 80% задач и работает в 2-3 раза быстрее. И последнее: GPT Image 2 не понимает синтаксис Midjourney (`--ar 16:9`, `::`, `(keyword:1.2)`) — нужное соотношение сторон указывайте явным размером в пикселях, веса — естественным языком («emphasize the cat», «de-emphasize the background»).

Частые вопросы

Почему один и тот же промпт даёт разный результат в Midjourney и GPT Image 2?
Это разные движки с разными «привычками». Midjourney натренирована на эстетических данных и хорошо понимает тег-soup в духе `cinematic, 8k, octane render, masterpiece` — она интерпретирует это стилистически. GPT Image 2 — «думающая» модель: она ожидает структурированный бриф с указанием назначения и обрабатывает текст последовательно (важное в начало). Дополнительно, GPT Image 2 имеет нейтральную, спокойную экспозицию по умолчанию, а Midjourney тянет в яркое и насыщенное. Для одного и того же запроса в Midjourney хватит «moody coffee shop interior», а GPT Image 2 нужно: «Atmospheric coffee shop interior at dusk. Subject: empty wooden bar table in foreground. Style: documentary realism, desaturated palette, no warming filters. Lighting: ambient indoor, single warm pendant light overhead. Camera: 35mm, eye-level, medium shot.»
Можно ли просить GPT Image 2 нарисовать конкретного актёра или политика?
Нет — это политика OpenAI, а не баг. Модель блокирует генерацию узнаваемых лиц публичных персон (актёры, политики, исторические личности после определённой эпохи). Также строгий модератор триггерится на комбинации в целом невинных слов: `real person` + `young woman` + `bathroom` + `suggestive` почти гарантированно даст refusal, даже если каждое слово по отдельности безопасно. Что делать: для узнаваемых лиц используйте Midjourney или Nano Banana (они частично фильтруют, но мягче). Для editorial / fashion с описанием типажа — переформулируйте без real-person attachment («editorial portrait of a woman in her 30s with red hair»). Не пытайтесь обмануть фильтр эвфемизмами — он семантический, а не keyword-based, и эвфемизмы только снижают доверие модели к запросу.
Зачем указывать назначение («это реклама», «это UI-мокап»), если я просто хочу красивую картинку?
Назначение активирует у модели правильный «режим» обработки. Реклама подразумевает чёткую композицию, место под таглайн и одну фокусную точку. Pitch-deck слайд — структурированную сетку и читаемые подписи. Product shot — нейтральный фон и точное освещение материала. Documentary realism — desaturated палитру без auto-warming. Без объявленного назначения модель смешивает все эти режимы наугад, и результат сильно гуляет от прохода к проходу. Один и тот же промпт «красивый интерьер кофейни» может выдать то рекламный кадр, то стоковую фотографию, то иллюстрацию. Назначение даёт модели якорь — и кадр становится предсказуемым.
Какое максимальное разрешение поддерживает GPT Image 2?
Технически — до 4K (3840×2160), но стабильно работает до 2K (2560×1440). Выше 2K — экспериментальная зона: могут появляться артефакты, и время генерации сильно растёт. Минимальное разрешение: 655 360 пикселей (например, 1024×1024). Обе стороны должны быть кратны 16. Максимальное соотношение длинной к короткой стороне: 3:1 (то есть нельзя сгенерировать узкую панораму 1×10). Популярные стабильные размеры: 1024×1024 (квадрат), 1024×1536 (портрет), 1536×1024 (ландшафт), 2560×1440 (широкоформатный для презентаций). Для 4K и плотного текста обязательно ставьте `quality="high"` — на `medium` и `low` детали будут «плыть».
Как заставить модель не менять лицо человека при editing?
Используйте эксплицитный preserve-блок и повторяйте его на каждой итерации. Шаблон: `Change: [только то, что меняется]` / `Preserve: face, facial features, skin tone, eye color, body shape, pose, identity in any way` / `Constraints: replace only the [clothing / background / lighting], no other changes`. Для virtual try-on (примерка одежды) дополнительно блокируйте позу, волосы, ракурс. На каждой следующей итерации повторяйте preserve-блок целиком — иначе при 3-4 проходе модель забывает первоначальные ограничения и постепенно «перерисовывает» персонажа. Это самая частая ошибка в editing-флоу: «я же сказал не менять лицо в первом промпте» — но модель видит только текущий промпт, не всю историю.

Похожие статьи

Смотреть все статьи