Z-Image: как писать промпты, которые модель понимает
Open · Обновлено:
Z-Image — компактная 6B image-модель от Alibaba Tongyi-MAI с открытыми весами под Apache 2.0. Главные фичи — билингвальный рендеринг текста (английский плюс китайский) и встроенный Prompt Enhancer. Доступна в вариантах Base (50 шагов, есть negative prompt) и Turbo (8 шагов, sub-second inference на H800). Запускается на consumer GPU от RTX 3060.
Что умеет Z-Image
Z-Image — это 6 миллиардов параметров на архитектуре S3-DiT (Scalable Single-Stream Diffusion Transformer). Версия Turbo — distilled до 8 шагов, даёт sub-second генерацию на H800 GPU и заняла первое место среди open-source моделей в рейтинге Artificial Analysis. Версия Base — полные 50 шагов, поддерживает negative prompt, тренируется LoRA, работает с ControlNet (canny, depth) и режимом Z-Image-Edit.
Ключевые цифры: разрешение flexible до примерно 4 мегапикселей, hardware-требования — RTX 3060 с 16 ГБ VRAM. Лицензия Apache 2.0 разрешает коммерческое использование. Запускается через HuggingFace (локально), fal.ai (API) или собирается в свой стек. И английский, и китайский поддерживаются нативно — для промптов и для рендеринга текста внутри изображения.
- 6B параметров на S3-DiT — компактнее конкурентов
- Билингвальный текст: EN + CN в изображениях
- Turbo — sub-second на H800, Base — negative prompt + LoRA
- ControlNet (canny, depth) + Z-Image-Edit
- Open-source под Apache 2.0, RTX 3060+ (16 ГБ VRAM)
Структура промпта
Подробные описательные промпты работают лучше всего:
[Subject with details] + [Style keyword] + [Lighting] + [Composition] + [Quality modifiers]
Стилевые ключевые слова, на которые Z-Image хорошо реагирует: «oil painting», «3D render», «anime style», «photorealistic», «watercolor», «pencil sketch». Освещение — «natural light», «studio lighting», «golden hour», «dramatic shadow», «neon glow». Композиция — «close-up», «wide shot», «bird's eye», «centered», «rule of thirds». Quality modifiers — «ultra-detailed», «high-resolution», «crisp», «sharp» — у Z-Image они реально работают, в отличие от многих open-source моделей.
Для рендеринга текста в изображении указывай его явно в кавычках: «A vintage poster with the title "Spring Festival" in red bold letters». Z-Image рендерит и латиницу, и иероглифы — это её ключевая фича по сравнению с конкурентами схожего размера.
Prompt Enhancer и неоднозначные промпты
Z-Image содержит встроенный Prompt Enhancer (PE) — компонент, который инжектирует reasoning и common sense в момент обработки промпта. Это позволяет выводить осмысленный результат даже из неоднозначных коротких описаний: модель «додумывает» недостающее с правдоподобными деталями.
Это полезно для быстрого прототипирования и творческих экспериментов, но не заменяет хороший промпт. Если важна предсказуемость — пиши подробно: PE помогает закрыть пропуски, не интерпретирует за тебя ключевые решения. На практике: «cat in a garden» → PE додумает породу, время суток, тип сада. «A british shorthair cat sitting in a Japanese moss garden at dawn» → результат предсказуемее и ближе к замыслу.
Комбинация PE плюс описательный промпт — лучший паттерн использования Z-Image. PE компенсирует мелкие пропуски, а основное описание задаёт направление.
Билингвальный текст в изображениях
Главное преимущество Z-Image перед моделями схожего размера — точный рендеринг и английского, и китайского текста внутри изображений. Это удобно для билингвальных баннеров, плакатов на двух языках, рекламы для китайского рынка, мемов с английским текстом, инфографики с китайскими подписями.
Для точного рендеринга указывай текст явно в кавычках в промпте: • «A coffee shop sign that reads "Morning Brew" in elegant gold script» • «A poster with the Chinese title "春节快乐" (Happy Spring Festival) in red calligraphy» • «A book cover with the English title "The Silent Mountain" and subtitle "A Journey Through Tibet"»
З-Image — это не Qwen Image (другая модель той же Alibaba). Для качественного рендеринга добавляй детали: шрифт (calligraphy, bold, sans-serif), цвет, расположение в кадре. Чем точнее указан текст и его параметры, тем выше шанс безошибочного рендера.
Типичные ошибки
1. Слишком минимальный промпт
«A cat» — Prompt Enhancer попытается додумать, но без направления выдаст generic результат. PE помогает заполнить пропуски, не заменяет описание. Минимум для стабильности: конкретный субъект с 2-3 деталями («a british shorthair cat with green eyes»), стиль (photorealistic / anime / oil painting), освещение и хотя бы одна композиционная деталь.
2. Текст без явных кавычек
«Make a poster about spring festival» — Z-Image не знает, какой именно текст рендерить, и часто выдаст искажённые символы или поставит свой. Точный текст всегда в кавычках с указанием шрифта и цвета: «with the title "Spring Festival" in red bold calligraphy». Это критично для билингвального рендера — главной фичи модели.
3. Negative prompt в Turbo вместо Base
Поддержка negative prompt официально задокументирована только для Base-версии. В Turbo (8 шагов, distilled) negative prompt либо игнорируется, либо влияет непредсказуемо. Если задача требует исключения watermark, артефактов рук или текстовых ошибок — используй Z-Image Base с явным negative prompt в настройках платформы.
4. Ожидание возможностей видео или vision
Z-Image — генератор изображений, не видеомодель и не анализатор. Промпты типа «animate this scene» или «describe what's in this photo» не работают. Для видео нужны Sora 2, Veo 3.1, Kling, Wan-video. Для анализа изображений — модели семейства Qwen-VL или GPT-4V. Z-Image закрывает только T2I и I2I.
5. Путаница с Qwen Image
Z-Image и Qwen Image — разные модели от разных команд Alibaba: Z-Image сделана командой Tongyi-MAI, Qwen Image — командой Qwen. Архитектура, тренировочные данные и сильные стороны разные. Промпт под Qwen может не работать оптимально в Z-Image и наоборот. Проверяй, под какую конкретно модель пишется промпт, особенно при экспорте между платформами.
Примеры до/после
Пример 1
Было
a cafe sign
Стало
A vintage coffee shop sign hanging from a brass chain, with the text "Morning Brew" written in elegant cursive gold script on a deep navy background. Worn wooden frame around the sign, slight weathering on the edges. Mounted on a brick wall, soft afternoon sunlight from the left creating warm shadows. Photorealistic, ultra-detailed, sharp focus, editorial photography style, 50mm lens, shallow depth of field.
Текст явно в кавычках с указанием шрифта и цвета. Конкретный материал и среда. Освещение с направлением. Quality modifiers «ultra-detailed, sharp focus» работают в Z-Image.
Пример 2
Было
billboard with chinese text
Стало
A modern billboard in a busy Shanghai street at twilight, featuring the bold Chinese title "新春快乐" (Happy New Year) in red calligraphy on a yellow background. Below the title, smaller English subtitle "Spring Festival 2026" in clean white sans-serif. Neon city lights reflected on wet pavement below. Wide-angle low-angle shot. Cinematic, photorealistic, ultra-detailed, sharp focus on the text.
Билингвальный рендер: китайский и английский текст оба в кавычках с указанием шрифта, цвета, размера. Z-Image — одна из немногих моделей, которая надёжно вытягивает оба языка одновременно.
Пример 3
Было
anime character illustration
Стало
A young woman with long pink hair tied in twin braids, wearing a white school uniform with a navy blue tie, standing in a cherry blossom park at golden hour. Soft warm sunlight filtering through the petals creating bokeh in the background. Detailed eyes with reflective highlights, hand-drawn linework. Anime style, ultra-detailed, sharp focus, vibrant colors, cinematic composition, rule of thirds.
Стилевое ключевое слово «anime style» в начале блока стиля. Конкретные детали персонажа, среды и освещения. Quality modifiers сложены последовательно.