Grok Imagine: как писать промпты, которые модель понимает
Grok · Обновлено:
Grok Imagine (Aurora) — image-модель xAI с авторегрессивной MoE Transformer архитектурой, не diffusion. Сильна в фотореалистичных портретах и точном рендеринге текста. Поддерживает разрешение до 2K, промпты до 10000 символов, 14+ соотношений сторон и до 10 изображений за запрос. Негативные промпты не работают.
Что умеет Grok Imagine
Grok Imagine — авторегрессивная модель, не diffusion. Это даёт высокую верность промпту и стабильный рендеринг текста в кадре — одно из ключевых отличий от конкурентов.
Сильные стороны: фотореалистичные человеческие портреты, точный текст в изображениях (логотипы, вывески, баннеры), стилевая гибкость в одной модели (photorealism, аниме, акварель, масло, поп-арт). Multi-turn editing через POST /v1/images/edits — цепочка итеративных правок. Multi-image compositing — до 5 входных изображений в одной генерации. Меньше ограничений на рендеринг реальных объектов, чем у конкурентов.
- Разрешение 1K (default), 2K (параметр resolution)
- До 10000 символов в промпте
- 14+ соотношений сторон, до 10 изображений за запрос
- Edit mode через /v1/images/edits — до 5 входных изображений
- Pro вариант — выше качество, лучше текст
Структура промпта
Формула: [Subject] + [Style/Mood] + [Lighting] + [Camera Angle] + [Finishing Details].
Grok Imagine принимает естественный язык — описательные предложения, НЕ теги. Используй режиссёрский язык: позиция камеры, тип объектива, направление света, время суток.
Конкретная атмосфера бьёт общую: «nostalgic», «melancholic», «electric» вместо «happy», «cool», «nice». Описывай одну чёткую сцену за генерацию — мульти-сценовые промпты с противоречивыми элементами модель путают.
API возвращает поле `revised_prompt` — модель может внутренне уточнить промпт перед генерацией. Это часть архитектуры, не сбой.
Что НЕ работает
Главное ограничение: негативные промпты не поддерживаются. «No X», «don't include Y», «without Z» — модель полностью игнорирует. Описывай ТОЛЬКО то, что нужно. Это критический антипаттерн, ломающий результат.
Кроме того, не работают: специальный синтаксис (никаких весов `(word:1.2)`, токенов, LoRA-ссылок), keyword stacking («masterpiece, best quality, 8k, ultra detailed» — контрпродуктивно для авторегрессивной архитектуры), общие прилагательные («nice», «cool», «good» — пустые слова).
Не ожидай pixel-level контроля в Edit mode — редактирование prompt-driven и холистическое. При итерации меняй одну переменную за раз, иначе модель меняет всё сразу.
Edit mode — редактирование изображений
Grok Imagine Edit — тот же модельный бэкенд, не отдельная модель. Доступ через POST /v1/images/edits. Принимает 1–5 входных изображений плюс промпт.
Ключевое правило: при редактировании одного изображения aspect ratio берётся из источника. Промпт описывает только ЧТО ИЗМЕНИТЬ, не всю сцену. «Change the sky to sunset» работает лучше, чем переописание всего кадра.
Итерируй по одной переменной за раз. Не противоречь входному изображению — если на нём дневной свет, не проси «полночь» одним промптом, лучше «evening light». Multi-image compositing — описывай как именно объединить: «place the person from Image 1 into the scene from Image 2».
Типичные ошибки
1. Негативные промпты
«No X», «don't include Y», «without Z» — Grok Imagine полностью игнорирует негативы. Это ключевое архитектурное ограничение. Описывай ТОЛЬКО то, что нужно. Если хочется «без людей» — не упоминай людей вообще, а опиши пустую сцену.
2. Keyword stacking «masterpiece, best quality, 8k»
Стэк общих квалитативных тегов («masterpiece, best quality, 8k, ultra detailed, hyperrealistic») контрпродуктивен для авторегрессивной модели. Конкретные термины (lens, lighting, mood adjective) работают значительно лучше любого quality-стэка.
3. SD-синтаксис: веса, LoRA, embeddings
Веса вида `(word:1.5)`, LoRA-ссылки, embeddings, специальные токены — Grok Imagine их не поддерживает. Они попадают в промпт как литеральный мусор или игнорируются. Регулируй приоритеты порядком слов и связными описаниями.
4. Общие прилагательные вместо атмосферных
«Nice», «cool», «good», «beautiful» — не дают модели направления. Используй специфические атмосферные слова: «nostalgic», «melancholic», «electric», «dramatic», «serene», «ominous», «ethereal». Они сдвигают результат заметно сильнее общих прилагательных.
5. Сложные мульти-сценовые промпты
Одна чёткая сцена за генерацию. Промпт с несколькими сценами, противоречивыми элементами или попыткой описать историю — модель путает. Для сторителлинга делай несколько генераций. Для редактирования меняй одну переменную за раз в Edit mode.
Примеры до/после
Пример 1
Было
красивый портрет девушки, beautiful, high quality, no blur, no watermark
Стало
A close-up portrait of a young woman with freckles and short auburn hair, wearing a black wool turtleneck. Golden hour rim light from behind, warm amber tones, melancholic mood. Shot on 85mm f/1.4, shallow depth of field, subtle film grain. Editorial photography.
Негативы «no blur, no watermark» — Grok Imagine их игнорирует. «Beautiful, high quality» — пустые слова. Конкретный субъект, освещение, объектив и атмосферное прилагательное дают целевой результат.
Пример 2
Было
vintage shop sign
Стало
A weathered metal sign mounted above a 1950s diner entrance. The sign reads "JOE'S DINER" in bold red script with cyan accents and small star icons. Twilight neon glow, wet asphalt below reflecting the lights, nostalgic mood. 35mm film photography, shallow depth of field.
Точный текст в кавычках, конкретный шрифт и цвет, эпоха, атмосферное прилагательное «nostalgic». Grok Imagine — топ по тексту, используй это.
Пример 3
Было
masterpiece, best quality, 8k, ultra detailed, photorealistic, woman, dress, garden, no blur
Стало
A young woman in her twenties wearing a flowing pale yellow linen dress, standing in a sunlit cottage garden in early summer. Soft golden hour light catches her hair, electric atmospheric mood, shallow depth of field. Shot on 85mm at f/1.8, candid documentary style.
Keyword stacking («masterpiece, best quality, 8k, ultra detailed») — контрпродуктивно для авторегрессивной архитектуры. Связное описание с режиссёрским языком работает в разы лучше.