Image

Z-Image: как писать промпты, которые модель понимает

Open · Обновлено:

Z-Image — компактная 6B image-модель от Alibaba Tongyi-MAI с открытыми весами под Apache 2.0. Главные фичи — билингвальный рендеринг текста (английский плюс китайский) и встроенный Prompt Enhancer. Доступна в вариантах Base (50 шагов, есть negative prompt) и Turbo (8 шагов, sub-second inference на H800). Запускается на consumer GPU от RTX 3060.

Что умеет Z-Image

Z-Image — это 6 миллиардов параметров на архитектуре S3-DiT (Scalable Single-Stream Diffusion Transformer). Версия Turbo — distilled до 8 шагов, даёт sub-second генерацию на H800 GPU и заняла первое место среди open-source моделей в рейтинге Artificial Analysis. Версия Base — полные 50 шагов, поддерживает negative prompt, тренируется LoRA, работает с ControlNet (canny, depth) и режимом Z-Image-Edit.

Ключевые цифры: разрешение flexible до примерно 4 мегапикселей, hardware-требования — RTX 3060 с 16 ГБ VRAM. Лицензия Apache 2.0 разрешает коммерческое использование. Запускается через HuggingFace (локально), fal.ai (API) или собирается в свой стек. И английский, и китайский поддерживаются нативно — для промптов и для рендеринга текста внутри изображения.

  • 6B параметров на S3-DiT — компактнее конкурентов
  • Билингвальный текст: EN + CN в изображениях
  • Turbo — sub-second на H800, Base — negative prompt + LoRA
  • ControlNet (canny, depth) + Z-Image-Edit
  • Open-source под Apache 2.0, RTX 3060+ (16 ГБ VRAM)

Структура промпта

Подробные описательные промпты работают лучше всего:

[Subject with details] + [Style keyword] + [Lighting] + [Composition] + [Quality modifiers]

Стилевые ключевые слова, на которые Z-Image хорошо реагирует: «oil painting», «3D render», «anime style», «photorealistic», «watercolor», «pencil sketch». Освещение — «natural light», «studio lighting», «golden hour», «dramatic shadow», «neon glow». Композиция — «close-up», «wide shot», «bird's eye», «centered», «rule of thirds». Quality modifiers — «ultra-detailed», «high-resolution», «crisp», «sharp» — у Z-Image они реально работают, в отличие от многих open-source моделей.

Для рендеринга текста в изображении указывай его явно в кавычках: «A vintage poster with the title "Spring Festival" in red bold letters». Z-Image рендерит и латиницу, и иероглифы — это её ключевая фича по сравнению с конкурентами схожего размера.

Prompt Enhancer и неоднозначные промпты

Z-Image содержит встроенный Prompt Enhancer (PE) — компонент, который инжектирует reasoning и common sense в момент обработки промпта. Это позволяет выводить осмысленный результат даже из неоднозначных коротких описаний: модель «додумывает» недостающее с правдоподобными деталями.

Это полезно для быстрого прототипирования и творческих экспериментов, но не заменяет хороший промпт. Если важна предсказуемость — пиши подробно: PE помогает закрыть пропуски, не интерпретирует за тебя ключевые решения. На практике: «cat in a garden» → PE додумает породу, время суток, тип сада. «A british shorthair cat sitting in a Japanese moss garden at dawn» → результат предсказуемее и ближе к замыслу.

Комбинация PE плюс описательный промпт — лучший паттерн использования Z-Image. PE компенсирует мелкие пропуски, а основное описание задаёт направление.

Билингвальный текст в изображениях

Главное преимущество Z-Image перед моделями схожего размера — точный рендеринг и английского, и китайского текста внутри изображений. Это удобно для билингвальных баннеров, плакатов на двух языках, рекламы для китайского рынка, мемов с английским текстом, инфографики с китайскими подписями.

Для точного рендеринга указывай текст явно в кавычках в промпте: • «A coffee shop sign that reads "Morning Brew" in elegant gold script» • «A poster with the Chinese title "春节快乐" (Happy Spring Festival) in red calligraphy» • «A book cover with the English title "The Silent Mountain" and subtitle "A Journey Through Tibet"»

З-Image — это не Qwen Image (другая модель той же Alibaba). Для качественного рендеринга добавляй детали: шрифт (calligraphy, bold, sans-serif), цвет, расположение в кадре. Чем точнее указан текст и его параметры, тем выше шанс безошибочного рендера.

Типичные ошибки

  1. 1. Слишком минимальный промпт

    «A cat» — Prompt Enhancer попытается додумать, но без направления выдаст generic результат. PE помогает заполнить пропуски, не заменяет описание. Минимум для стабильности: конкретный субъект с 2-3 деталями («a british shorthair cat with green eyes»), стиль (photorealistic / anime / oil painting), освещение и хотя бы одна композиционная деталь.

  2. 2. Текст без явных кавычек

    «Make a poster about spring festival» — Z-Image не знает, какой именно текст рендерить, и часто выдаст искажённые символы или поставит свой. Точный текст всегда в кавычках с указанием шрифта и цвета: «with the title "Spring Festival" in red bold calligraphy». Это критично для билингвального рендера — главной фичи модели.

  3. 3. Negative prompt в Turbo вместо Base

    Поддержка negative prompt официально задокументирована только для Base-версии. В Turbo (8 шагов, distilled) negative prompt либо игнорируется, либо влияет непредсказуемо. Если задача требует исключения watermark, артефактов рук или текстовых ошибок — используй Z-Image Base с явным negative prompt в настройках платформы.

  4. 4. Ожидание возможностей видео или vision

    Z-Image — генератор изображений, не видеомодель и не анализатор. Промпты типа «animate this scene» или «describe what's in this photo» не работают. Для видео нужны Sora 2, Veo 3.1, Kling, Wan-video. Для анализа изображений — модели семейства Qwen-VL или GPT-4V. Z-Image закрывает только T2I и I2I.

  5. 5. Путаница с Qwen Image

    Z-Image и Qwen Image — разные модели от разных команд Alibaba: Z-Image сделана командой Tongyi-MAI, Qwen Image — командой Qwen. Архитектура, тренировочные данные и сильные стороны разные. Промпт под Qwen может не работать оптимально в Z-Image и наоборот. Проверяй, под какую конкретно модель пишется промпт, особенно при экспорте между платформами.

Примеры до/после

Пример 1

Было

a cafe sign

Стало

A vintage coffee shop sign hanging from a brass chain, with the text "Morning Brew" written in elegant cursive gold script on a deep navy background. Worn wooden frame around the sign, slight weathering on the edges. Mounted on a brick wall, soft afternoon sunlight from the left creating warm shadows. Photorealistic, ultra-detailed, sharp focus, editorial photography style, 50mm lens, shallow depth of field.

Текст явно в кавычках с указанием шрифта и цвета. Конкретный материал и среда. Освещение с направлением. Quality modifiers «ultra-detailed, sharp focus» работают в Z-Image.

Пример 2

Было

billboard with chinese text

Стало

A modern billboard in a busy Shanghai street at twilight, featuring the bold Chinese title "新春快乐" (Happy New Year) in red calligraphy on a yellow background. Below the title, smaller English subtitle "Spring Festival 2026" in clean white sans-serif. Neon city lights reflected on wet pavement below. Wide-angle low-angle shot. Cinematic, photorealistic, ultra-detailed, sharp focus on the text.

Билингвальный рендер: китайский и английский текст оба в кавычках с указанием шрифта, цвета, размера. Z-Image — одна из немногих моделей, которая надёжно вытягивает оба языка одновременно.

Пример 3

Было

anime character illustration

Стало

A young woman with long pink hair tied in twin braids, wearing a white school uniform with a navy blue tie, standing in a cherry blossom park at golden hour. Soft warm sunlight filtering through the petals creating bokeh in the background. Detailed eyes with reflective highlights, hand-drawn linework. Anime style, ultra-detailed, sharp focus, vibrant colors, cinematic composition, rule of thirds.

Стилевое ключевое слово «anime style» в начале блока стиля. Конкретные детали персонажа, среды и освещения. Quality modifiers сложены последовательно.

Частые вопросы

Чем Z-Image отличается от других open-source image моделей?
Тремя вещами. Первое: компактная 6B архитектура S3-DiT — конкуренты обычно 20B-80B, Z-Image выдаёт сопоставимое качество при меньшем размере. Второе: точный билингвальный рендер текста — английский и китайский одновременно работают надёжно. Третье: встроенный Prompt Enhancer, который заполняет пропуски в коротких промптах. Лицензия Apache 2.0 — полностью коммерческая.
Какая разница между Z-Image Base и Z-Image Turbo?
Base — 50 шагов, стандартная скорость, поддерживает negative prompt, тренировку LoRA, работу с ControlNet и Z-Image-Edit. Turbo — 8 шагов distilled, sub-second inference на H800 GPU, лучший выбор для скорости и массовой генерации. Negative prompt в Turbo не задокументирован. Прототипируй в Turbo, финальные кадры — в Base.
Какое железо нужно для локального запуска?
Минимум — RTX 3060 с 16 ГБ VRAM. Это даёт работоспособный запуск на consumer hardware, что является важным преимуществом Z-Image: большинство моделей сравнимого качества требует профессиональные GPU класса H100. Веса доступны на HuggingFace, есть готовые ComfyUI workflows. Для облака — fal.ai даёт API с оплатой по использованию.
Как добиться точного рендера текста в изображении?
Указывай текст явно в кавычках, добавляй параметры шрифта (calligraphy, bold, sans-serif, cursive), цвет, расположение в кадре. Пример: «with the title "Morning Brew" in elegant gold cursive script, centered at top». Для билингвального рендера указывай оба текста с переводом в скобках: «Chinese title "春节快乐" (Happy Spring Festival)». Z-Image — одна из немногих open-source моделей с надёжным рендером CJK.
Что такое Prompt Enhancer и нужно ли его настраивать?
Prompt Enhancer — встроенный компонент Z-Image, который инжектирует reasoning и common sense в момент обработки промпта. Он включается автоматически и не требует настройки. PE помогает «додумать» недостающее в коротких промптах: например, «cat in garden» получит правдоподобную породу, время суток и тип сада. Не заменяет хороший промпт — для предсказуемости лучше писать подробно.
Поддерживает ли Z-Image fine-tuning через LoRA?
Да, но только Base-версия — Turbo distilled-модель и стандартный LoRA-стек поверх неё работает нестабильно. Для тренировки LoRA под конкретный стиль, бренд или продукт используй Z-Image Base: на HuggingFace доступны веса, есть готовые скрипты обучения. Также Base поддерживает ControlNet (canny, depth) и режим Z-Image-Edit для inpainting.
Поддерживается ли Opten для Z-Image?
Да, расширение Opten распознаёт Z-Image на платформах fal.ai и HuggingFace Spaces и оценивает промпты по структуре, описанной выше: проверяет описательность вместо минимализма, наличие явного текста в кавычках при текстовых задачах, корректный выбор Base/Turbo, отсутствие путаницы с Qwen Image. Одним кликом можно получить rewrite в правильной структуре.

Похожие модели

Готов писать промпты для Z-Image (Base / Turbo) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время