Imagen 4: как писать промпты, которые модель понимает
Google · Обновлено:
Imagen 4 — image-модель Google нового поколения с улучшенной типографикой и ультра-фотореализмом. Работает на естественном языке, оптимизирована под английский, поддерживает чёткий рендер текста с правильным кернингом. Идёт в трёх версиях — Fast, стандарт и Ultra; все используют единую структуру промптов и до 10× быстрее Imagen 3.
Что умеет Imagen 4
Imagen 4 — один из лидеров по фотореалистичной генерации: волосы, кожа, текстуры тканей рендерятся на уровне студийной съёмки; капли воды, отражения и преломление света физически правдоподобны. Поддерживаются соотношения 1:1, 4:3, 3:4, 9:16, 16:9, разрешение до 1024×1024 (зависит от платформы).
Главный прорыв перед конкурентами — продвинутый рендер текста: чёткий, читаемый, с правильным кернингом. Подходит для постеров, упаковки, вывесок и брендированных макетов. Контент-фильтры Google блокируют реалистичные лица публичных персон, NSFW, насилие и копирайт. Negative prompt не поддерживается.
- Три версии: Fast (черновики), стандарт (баланс), Ultra (premium)
- Продвинутая типографика с правильным кернингом
- Ультра-фотореализм: кожа, ткани, отражения
- До 10× быстрее Imagen 3 (Fast)
- Соотношения 1:1, 4:3, 3:4, 9:16, 16:9
Структура промпта и фреймворк SCULPT
Оптимальный порядок: [Тип изображения/стиль] + [Субъект с деталями] + [Действие/поза] + [Окружение/сцена] + [Освещение] + [Ракурс/композиция] + [Материалы/текстуры] + [Настроение/атмосфера].
Фреймворк SCULPT даёт удобный чек-лист: Subject («battle-hardened samurai in white porcelain armor»), Context («misty bamboo grove at dawn»), Unique details («armor adorned with intricate blue paintings»), Lighting («soft dappled light filtering through the canopy»), Perspective («dramatic close-up, low angle, shallow depth of field»), Tone/Theme («Akira Kurosawa style, high-contrast black and white»). Рекомендованная длина — 50–300 слов на естественном английском.
Рендер текста: главное преимущество Imagen 4
Imagen 4 — модель уровня state-of-the-art по типографике. Чёткий текст на вывесках, постерах, упаковке с корректным кернингом и межбуквенными интервалами. Чтобы попасть в кадр без искажений, нужны три обязательных условия:
Точный текст в кавычках («reads "Tasty Burger"»). Описание стиля шрифта — «large, bold, groovy white bubble typography», «handwritten script», «vintage serif». Явное расположение — «at the top», «on the banner», «above the entrance». Чем конкретнее описан шрифт и его положение, тем точнее результат — особенно для брендинга и маркетинговых макетов.
Кинематографический стек и текстуры
Imagen 4 отлично реагирует на профессиональную фото/кино-терминологию. Камера и объектив: «Leica M10», «50mm Summilux», «ARRI Alexa», «anamorphic lens». Плёнка: «Cinestill 50D», «Kodak Vision3 500T», «Kodak Portra 400», «35mm film grain». Диафрагма «shot at f/2.0» контролирует глубину резкости. Пост-обработка: «color grading», «LUT», «digital intermediate», «film emulation».
Для материалов используй физические описания: «porcelain carapace with intricate blue paintings», «worn leather with visible stitching and patina», «iridescent feathers with subtle hues of lavender and rose gold». Для сложных сцен описывай слои — «In the foreground… In the middle ground… The background shows…» — это даёт модели понятную композиционную иерархию.
Типичные ошибки
1. Теги через запятую вместо связных предложений
Imagen 4 оптимизирован под natural language. «Girl, red coat, Tokyo, neon, bokeh, cinematic» работает хуже, чем связное описание. Пиши промпт как бриф для фотографа: цельные предложения с осмысленным порядком, конкретными деталями и логичными связками между элементами.
2. Собственные имена из фикшена для фотореализма
Запрос «photorealistic image of Valyria» модель ассоциирует с фэнтези-иллюстрациями и concept art. Для фотореалистичного стиля описывай характеристики: «glorious titanic city with Greco-Roman architecture» вместо «Valyria», «epic warrior in golden plate armor» вместо «Achilles».
3. Негативные формулировки
Imagen не поддерживает negative prompt. «No trees, no clouds, without shadows» либо игнорируется, либо наоборот добавляет упомянутые объекты. Описывай позитивно: «clear blue sky», «empty street», «bright noon lighting» вместо «no clouds», «no people», «no shadows».
4. Запрос на лица публичных персон
Контент-фильтр Google блокирует реалистичные изображения известных людей — политиков, актёров, музыкантов. Замени конкретное имя на описание характеристик («a man in his 50s with grey hair and a sharp suit») или переключи стиль в editorial/concept-art, где использование имени не требуется.
5. Конфликтующие стили или перегруженный промпт
«Photorealistic anime watercolor oil painting» создаёт неконтролируемый микс. Промпт больше 500 слов без чёткой иерархии важности приводит к конфликту инструкций. Выбирай один основной стиль и держи длину в диапазоне 50–300 слов с главным субъектом в начале.
Примеры до/после
Пример 1
Было
самурай в красивых доспехах
Стало
A battle-hardened samurai in white porcelain armor adorned with intricate blue paintings, standing in a misty bamboo grove at dawn, soft dappled light filtering through the canopy, dramatic close-up at low angle, shallow depth of field, cinematic tension, Akira Kurosawa style, high-contrast color palette with earthy neutrals and splashes of deep crimson, shot on 35mm film with subtle grain.
Полный SCULPT в одном промпте: субъект с уникальными деталями (porcelain armor, blue paintings), контекст (misty bamboo grove), освещение (dappled light), перспектива (close-up, low angle, f/2.0), тон (Kurosawa style).
Пример 2
Было
постер с надписью бургер
Стало
Vintage burger restaurant poster, large bold groovy white bubble typography at the top reads "Tasty Burger", subtitle in handwritten red script below reads "since 1972", warm orange background with subtle paper texture, hand-painted lettering style with playful tilt, centered composition, editorial layout, muted earth tones, photorealistic print quality.
Имя бренда и подпись в кавычках с разными шрифтами, явное расположение, цветовая палитра, материал фона — Imagen 4 собирает почти production-ready макет.
Пример 3
Было
девушка с рыжими волосами в городе
Стало
Editorial fashion photograph of a young woman with vibrant copper-red hair styled in loose waves, wearing a tailored cream wool coat over a black turtleneck, walking through a rain-slicked Tokyo street at blue hour, neon reflections in puddles, shot on Leica M10 with 50mm Summilux lens at f/2.0, shallow depth of field with creamy bokeh, Cinestill 50D film stock, cinematic color grading with cool blue and amber highlights, layered composition with soft background blur.
Кинематографический стек целиком: камера, объектив, диафрагма, плёнка, цветокоррекция. Детализация одежды и волос задействует сильные стороны Imagen 4 в фотореализме.