GPT Image 1.5: как писать промпты, которые модель понимает
OpenAI · Обновлено:
GPT Image 1.5 — image-модель OpenAI с улучшенным фотореализмом, сохранением идентичности при редактировании и multi-image входом. Поддерживает разрешения до 1536×1024, прозрачный фон, три уровня качества, параметр input_fidelity (high/low) и до 4 изображений за запрос. Промпт оптимальной длины — до 500 слов.
Что нового в GPT Image 1.5
Версия 1.5 принесла десять конкретных апгрейдов: улучшенный фотореализм с естественным освещением и точными материалами, гибкий баланс качества и скорости (low quality уже превосходит визуальное качество GPT Image 1), сохранение лиц и идентичности при редактировании, надёжный рендеринг текста, поддержку сложных структурированных визуалов (инфографики, диаграммы), точный контроль стиля через минимальный промпт.
Дополнительно: сильные знания о реальном мире, улучшенная сохранность композиции при редактировании, более точная точность освещения, более высокая детализация мелких элементов.
- Параметр input_fidelity (high/low) для контроля редактирования
- Multi-image вход — до 4 изображений за запрос
- Сохранение лиц и идентичности при редактировании
- Background: transparent / opaque / auto
- Длина промпта до ~4000 токенов, оптимально до 500 слов
Структура промпта
Рекомендуемый порядок от OpenAI: [Фон/Сцена] → [Субъект] → [Ключевые детали] → [Ограничения/Исключения]. Это отличается от подхода GPT Image 1, где субъект шёл первым.
Плюс указание цели использования — «Product shot for an e-commerce listing», «Infographic for a student audience», «UI mockup showing a mobile app screen». Это задаёт «режим» и уровень полировки.
Для сложных запросов используй короткие маркированные сегменты или переносы строк вместо одного длинного абзаца. Слоистая структура (субъект, окружение, освещение, стиль, технические параметры) даёт чистый и предсказуемый результат.
Multi-image вход и редактирование
Multi-image — одна из ключевых фич 1.5. Ссылайся на каждое изображение по индексу: «Image 1: product photo with the watch on a white surface. Image 2: style reference, dark moody studio lighting. Apply Image 2's style to Image 1». При композитинге: «put the bird from Image 1 on the elephant in Image 2».
Для редактирования используй edit endpoint с input_fidelity. High fidelity сохраняет композицию и идентичность (используй для face-preserving edits), low даёт творческую свободу (для style transfer и переосмысления). Указывай явно: «Change only X» + «keep everything else the same». При итерациях повторяй preserve-список — иначе модель «дрейфует».
Текст и структурированные визуалы
Точный текст — в кавычках или CAPS: `"SUMMER SALE 50% OFF"`. Указывай типографику: стиль шрифта, размер, цвет, расположение. Для брендов и редких слов — побуквенно: `S-T-A-R-B-U-C-K-S`. Для инфографик с большим количеством текста — `quality="high"`.
GPT Image 1.5 особенно силён в структурированных визуалах: инфографики, диаграммы, многопанельные композиции, объяснительные иллюстрации. Указывай аудиторию («for students», «for executives») и тип («timeline», «labeled diagram», «funnel chart») — модель выбирает уровень детализации и плотность текста под задачу.
Типичные ошибки
1. Игнорирование параметров API
`quality`, `background`, `input_fidelity` и `num_images` влияют на результат не меньше, чем текст промпта. Запросить high-quality инфографику с мелким текстом на `quality="medium"` — гарантия размытых лейблов. Запросить стикер без `background: transparent` — получишь белый фон.
2. Синтаксис Stable Diffusion
Веса вида `(word:1.5)`, теги через запятую `1girl, masterpiece, best quality`, embeddings, LoRA-ссылки — GPT Image 1.5 работает с естественным языком, не с тегами. Эти конструкции игнорируются или ухудшают результат. Пиши связными предложениями.
3. Перегрузка при итерациях
«Change hair, background, clothing, add glasses, make it cinematic» — модель пытается сделать всё сразу и теряет идентичность. Лучше менять по одному элементу за раз, повторяя preserve-список на каждом шаге. GPT Image 1.5 особенно хорош в итеративной работе именно благодаря face-preservation.
4. Отсутствие цели использования
«Сделай инфографику» — модель не знает уровень полировки и плотности. «Educational infographic for students explaining...» или «Pitch-deck slide for executives showing...» — задаёт режим. Цель влияет на стилистику, размер шрифта, иллюстративность не меньше, чем основной субъект.
5. Quality-бустеры «8K, ultra HD, masterpiece»
Общие восхваления качества — почти бесполезны. Конкретные термины (lens, lighting direction, depth of field) работают значительно лучше. Плюс параметры API (`quality="high"`) дают реальный контроль над финальной чёткостью, в отличие от слов в промпте.
Примеры до/после
Пример 1
Было
красивая фотография продукта
Стало
Product shot for an e-commerce listing. A premium minimalist wireless headphone, matte black with brushed steel accents, placed on a minimalist white surface. Soft gradient lighting from the upper left, soft shadows beneath, slight reflection on the smooth surface. Professional studio photography, sharp focus, neutral cool color balance, quality="high".
Указание цели использования («e-commerce listing»), порядок bg → subject → details, конкретное освещение и поверхность, явный `quality="high"`.
Пример 2
Было
infographic about the water cycle
Стало
Educational infographic for students explaining the water cycle. Clean white background with five labeled stages: "Evaporation", "Condensation", "Precipitation", "Collection", "Transpiration". Use bold sans-serif font for stage labels, soft blue color palette for water, warm yellow for sun. Connecting arrows between stages. Top title (centered): "The Water Cycle". quality="high".
Цель («for students»), точные текстовые лейблы в кавычках, конкретная типографика и палитра, `quality="high"` для мелкого текста.
Пример 3
Было
Change her hair color and the background and add glasses and make it cinematic
Стало
Image 1: portrait photo. Change only the hair color to deep auburn. Keep the same facial features, expression, pose, glasses or lack thereof, and clothing unchanged. Maintain identical lighting and background. input_fidelity="high".
Несколько изменений за один промпт — модель путается. Один точный edit с явным preserve-списком и `input_fidelity="high"` сохраняет идентичность.