Как писать промпты для GPT Image 2: 5 шагов от случайной генерации к точному результату
Влад Воронежцев · · 8 мин чтения

GPT Image 2 — «думающая» модель OpenAI. Она обрабатывает промпт последовательно: то что написано в начале, имеет наибольший визуальный вес. В отличие от Midjourney, которая хорошо понимает тег-soup, и Nano Banana, у которой яркая «бабблгам»-экспозиция по умолчанию, GPT Image 2 ждёт структурированный бриф с указанием назначения и спокойную нейтральную палитру. Если писать ей промпты как Midjourney — половина кредитов уходит в шум. Эти 5 шагов превращают случайную генерацию в предсказуемый результат на любом запросе: от рекламного баннера до infographic-слайда с плотным многоязычным текстом.
- 1.
Структура важнее тегов
GPT Image 2 читает промпт сверху вниз и присваивает первому абзацу максимальный вес. Если главный субъект «похоронен» в конце абзаца — модель его не выделит и кадр получится про что-то другое. Рабочий порядок: [Фон/Сцена] → [Субъект] → [Ключевые детали] → [Стиль/Медиум] → [Освещение/Композиция] → [Текст в кавычках] → [Constraints — что сохранить, чего избежать]. Формат блоков может быть любым — естественный язык, JSON-подобная структура, инструкции по пунктам — это всё работает. Главное: намерение и ограничения должны быть в первых 30-40 словах. Тег-soup в стиле Stable Diffusion (`girl, redhair, summer, masterpiece, 8k, octane render`) для GPT Image 2 не работает: модель попытается их использовать, но без понимания иерархии результат будет случайным.
Было
summer, girl, red hair, beach, golden hour, cinematic, 35mm, photorealistic, masterpiece
Стало
Candid photograph: a young woman with red hair walking along an empty beach at golden hour. Subject centered, looking away from camera. Photorealistic, 35mm film, shallow depth of field, warm natural light, subtle film grain.
- 2.
Пишите как бриф для дизайнера
Главный лайфхак: указывайте назначение кадра. Не «красивая картинка с продуктом», а «премиальный кампания-кадр для streetwear-бренда Thread». Не «UI экран», а «iPhone mockup для onboarding-флоу финтех-приложения». Назначение активирует у модели правильный набор шаблонов: реклама подразумевает чёткую композицию и место под таглайн; pitch-deck слайд — сетку и читаемые цифры; product shot — нейтральный фон и точное освещение материала. Если назначение не объявлено — модель угадывает, и каждый раз по-разному. Это самая частая причина того, что один и тот же промпт даёт три разных результата подряд. Дополнительно: укажите аудиторию или контекст использования («для презентации инвесторам», «для соцсетей подростковой аудитории») — модель адаптирует тон визуально.
Было
красивое рекламное изображение нового смартфона
Стало
Premium product campaign image for "Aurora" smartphone (mid-range, target audience: 25-35 urban professionals). Hero shot on a neutral grey gradient background, soft three-point studio lighting, phone tilted 15° to show edge profile, subtle shadow. Tagline area on left third (reserve empty space). Render once, integrated lifestyle cue: faint coffee cup blur in background.
- 3.
Точный текст всегда в кавычках
GPT Image 2 — SOTA по рендерингу текста внутри изображений (это её главный прорыв vs Midjourney и Stable Diffusion). Но если не заключить точный текст в кавычки, модель воспринимает слова как описание сцены и часто искажает буквы, добавляет лишние символы или путает регистр. Правило: всё что должно появиться на картинке буквально — пишется в `"..."` или ALL CAPS. Указывайте шрифт (`bold sans-serif, Inter`), кегль (`large headline`), цвет и расположение (`centered top third`). Для редких слов, брендов или иностранных написаний — прописывайте по буквам в скобках. Для мелкого или плотного текста (легенды графиков, юридический мелочный шрифт) обязательно ставьте `quality="high"` — на `medium` и `low` микрошрифт будет с артефактами. Многоязычная поддержка: текст можно просить на кириллице, китайском, японском, корейском, хинди, бенгали, арабском — все рендерятся чисто.
Было
billboard with text Fresh and Clean about a cleaning product, modern design
Стало
Outdoor billboard for a cleaning product brand. Billboard text (EXACT, verbatim, no extra characters, no logo drift): "Fresh and Clean". Typography: bold sans-serif, Inter, white on deep teal background, centered, large size. Below the tagline (smaller, 30% of headline size): "Available nationwide". Quality: high.
- 4.
Шаблон Change / Preserve / Constraints для редактирования
Когда нужно поменять одно, сохранив остальное — без эксплицитного preserve-блока модель «дрейфует»: меняет лицо вместе с одеждой, освещение вместе с фоном, ракурс вместе с погодой. Шаблон для surgical edits: `Change: [что меняется]` / `Preserve: [лицо, поза, освещение, ракурс, фон, геометрия, текст, layout]` / `Constraints: [no extra objects, no redesign, no logo drift, no watermark]`. Преимущество шаблона — он явно блокирует drift. Особенно критично для virtual try-on (замена одежды на человеке), интерьерной замены (один предмет мебели на другой), смены погоды и сезона. На каждой итерации повторяйте preserve-список — иначе при 3-4 проходе модель забывает что нужно было сохранить идентичность, и постепенно «перерисовывает» персонажа.
Было
make her hair red
Стало
Change: hair color from brown to natural red (auburn). Preserve: face, facial features, skin tone, eye color, expression, pose, lighting direction, background, clothing, all other identity markers. Constraints: no extra objects, no redesign of any element except hair, no watermark, no logo drift.
- 5.
Итерация вместо overload
Часто хочется впихнуть все требования в один промпт: и стиль, и свет, и текст, и constraints, и aspect ratio, и сохранение identity. Так делать нельзя — модель не может одновременно держать в голове 15 ортогональных требований, и одно из них «провисает» (обычно — текст или identity). Правильный workflow: чистый базовый промпт → оценка результата → точечная правка одной осью. Примеры одношаговых правок: `make lighting warmer`, `remove the extra tree on the left`, `replace the typography with Inter bold`, `restore the original background`. Это идёт намного быстрее чем переписывать промпт с нуля. Параметр `quality="high"` включайте только когда оно реально нужно (плотный текст, портреты крупным планом, identity-sensitive editing) — `medium` подходит для 80% задач и работает в 2-3 раза быстрее. И последнее: GPT Image 2 не понимает синтаксис Midjourney (`--ar 16:9`, `::`, `(keyword:1.2)`) — нужное соотношение сторон указывайте явным размером в пикселях, веса — естественным языком («emphasize the cat», «de-emphasize the background»).