Google Imagen: как писать промпты, которые модель понимает
Google · Обновлено:
Google Imagen — семейство image-моделей от Google, доступное через ImageFX, Vertex AI и Freepik. Понимает естественный язык лучше, чем списки тегов через запятую, оптимизировано под английский и поддерживает читаемый текст на изображениях. Негативный промпт не поддерживается — описывай, что нужно, а не то, чего быть не должно.
Что умеет Google Imagen
Imagen — это text-to-image модель: рендерит фотореалистичные кадры, иллюстрации, графический дизайн и кинематографические сцены до 1024×1024 в популярных соотношениях (1:1, 4:3, 3:4, 9:16, 16:9). В отличие от Stable Diffusion, модель построена на естественном языке — связные предложения работают лучше, чем теги через запятую.
Главное прикладное преимущество — рендер текста прямо в изображении: вывески, постеры, заголовки, упаковка. Точный текст указывается в кавычках, дополнительно прописывается шрифт и расположение. Контент-фильтры Google блокируют реалистичные лица публичных персон, NSFW и насилие.
- Естественный язык вместо тегов через запятую
- Рендер читаемого текста на изображениях
- Соотношения 1:1, 4:3, 3:4, 9:16, 16:9
- Широкий стилевой диапазон: фотореализм, иллюстрация, концепт-арт
- Негативные промпты не поддерживаются — только позитивные формулировки
Структура промпта и фреймворк SCULPT
Оптимальный порядок: [Тип изображения/стиль] + [Субъект] + [Действие/поза] + [Окружение/сцена] + [Освещение] + [Композиция/ракурс] + [Детали материалов/текстур] + [Настроение/атмосфера].
Для построения промпта удобен фреймворк SCULPT: Subject (кто/что), Context (где), Unique details (текстуры и материалы), Lighting (тип света — golden hour, rim light, chiaroscuro), Perspective (ракурс — close-up, low angle, aerial), Tone/Theme (cinematic, noir, dreamy, editorial). Не обязательно использовать все шесть элементов — но чем конкретнее описание, тем точнее результат. Минимум 10 слов, рекомендованный диапазон — 50–300 слов.
Рендер текста на изображениях
Imagen умеет генерировать читаемый текст внутри изображения — вывески, плакаты, заголовки, обложки. Чтобы попасть в кадр без искажений, нужны три вещи:
Точный текст в кавычках («reads "OPEN"», «sign that says "Coffee Bar"»). Стиль шрифта прописывается отдельно: «bold sans-serif», «handwritten script», «neon lettering», «hand-painted lettering». Расположение указывается явно: «at the top», «on the banner», «above the entrance», «on the sign».
Для коротких надписей результат стабильный. Длинный текст без кавычек модель часто искажает — добавляет лишние буквы или меняет порядок. Запросы на лица публичных персон блокируются content-фильтром.
Типичные ошибки
1. Список тегов через запятую вместо естественных предложений
Imagen построен на natural language — связное описание работает значительно лучше, чем «girl, red dress, street, sunset, bokeh, cinematic». Пиши промпт как краткий бриф для фотографа: связные предложения, конкретные детали, осмысленный порядок.
2. Негативные формулировки в основном промпте
Imagen не поддерживает negative prompt. Фразы вроде «without people», «no clouds», «not blurry» либо игнорируются, либо наоборот добавляют упомянутые элементы. Описывай только то, что нужно видеть на изображении — позитивные формулировки.
3. Собственные имена из фикшена для фотореализма
Запрос «photorealistic image of Valyria» или «realistic photo of Gandalf» модель ассоциирует с книжными иллюстрациями и concept art из обучающих данных. Для фотореалистичного стиля описывай характеристики: «glorious titanic city with Greco-Roman architecture» вместо имени.
4. Слишком короткий или перегруженный промпт
Промпт меньше 10 слов оставляет модели слишком много свободы — она «додумывает» сцену по-своему. Промпт больше 500 слов без чёткой иерархии создаёт конфликты между элементами. Оптимально 50–300 слов с главным субъектом в начале.
5. Конфликтующие стили в одном промпте
«Photorealistic anime watercolor oil painting» — модель не знает, какой стиль выбрать, и выдаёт неконтролируемый микс. Определись с одним основным стилем (фотореализм, иллюстрация, концепт-арт) и используй вспомогательные стилистические маркеры внутри него.
Примеры до/после
Пример 1
Было
красивая девушка в платье на улице
Стало
Editorial fashion photograph of a young woman with copper-red hair wearing a flowing emerald silk dress, walking through a sunlit Parisian street, golden hour rim light, shallow depth of field, shot on 35mm film, Kodak Portra 400, warm cinematic color grading, layered composition with soft bokeh in background.
Главные изменения: конкретные детали внешности и одежды, явное окружение, профессиональная фото-лексика (плёнка, объектив, глубина резкости), указание ракурса и освещения.
Пример 2
Было
плакат с надписью кафе
Стало
Vintage café poster, large bold serif typography at the top reading "BROOKLYN COFFEE", subtitle in handwritten script reading "since 1982", warm cream background, hand-painted lettering style, subtle paper texture, muted earth tones, editorial layout, centered composition.
Точный текст в кавычках, отдельные указания шрифта для заголовка и подзаголовка, расположение, фон и стиль — собирает почти production-ready макет.
Пример 3
Было
эпический дракон в горах
Стало
Cinematic concept art of a massive ancient dragon with iridescent emerald scales perched on a moss-covered mountain peak, volumetric god rays piercing through morning mist, low angle wide shot, dramatic chiaroscuro lighting, Peter Jackson epic style, rich earthy tones with golden highlights, particle effects of floating ash, high-resolution digital painting.
SCULPT в работе: субъект, контекст, уникальные детали (iridescent scales, moss), освещение (god rays, chiaroscuro), перспектива (low angle wide), тон (Peter Jackson epic style).