Qwen Image: как писать промпты, которые модель понимает
Alibaba · Обновлено:
Qwen Image — image-модель от команды Alibaba Qwen с лидирующим рендерингом текста: коммерческий уровень на английском и китайском, multi-line layouts, параграфы. V2.0 — 7B параметров, нативные 2048×2048, до 1 000 токенов промпта, прямая генерация инфографики, PPT-слайдов, постеров и комиксов с текстовыми пузырями.
Что умеет Qwen Image
Главная фича — коммерческий рендеринг текста на EN и CN: multi-line, абзацы, заголовки, мелкие подписи. На AI Arena Qwen Image удерживает #1 в категориях T2I и image editing (V2.0). На 9 публичных бенчмарках (GenEval, DPG, OneIG-Bench, GEdit и др.) тоже первый.
V2.0 — основной рабочий вариант: 7B параметров (легче V1 с 20B), значительно меньше VRAM, нативные 2048×2048 без апскейла, и unified generation+editing (одна модель для T2I и редактирования). V1 остаётся для тяжёлых production-пайплайнов с 40–58GB VRAM. Лицензия Apache 2.0 — полные коммерческие права.
- Коммерческий уровень рендеринга текста (EN + CN)
- V2.0: нативные 2048×2048, до 1 000 токенов, 7B параметров
- Прямая генерация инфографики, PPT, постеров, комиксов
- ControlNet (canny, depth, pose, lineart, softedge, normal, openpose)
- Unified generation + editing в одной модели
Структура промпта
Подробные описательные промпты с композицией сцены работают лучше всего. Базовая формула: [Main subject] + [Scene composition] + [Style] + [Text content to render] + [Layout details].
Для документов с текстом ВСЕГДА указывай текст явно в промпте — модель не «угадает», что должно быть в заголовке слайда. Для V2.0 можно использовать до 1 000 токенов, и для инфографики/комиксов это не «слишком много», а оптимально: модель умеет работать с плотной композицией.
Для editing промпт — это инструкция, не полное описание. «Change the text to "Q4 2026"» работает; «A poster with text saying...» в editing-режиме — нет.
Рендеринг текста в изображении
Qwen Image — лидер на рынке по точности текста, наравне с GPT Image 2. Multi-line layouts, paragraph-level text, инфографика с графиками и текстовыми блоками, PPT-слайды, комиксы с текстовыми пузырями, постеры с заголовками — всё это V2.0 генерирует прямой генерацией, без отдельного typography engine.
Правила: писать точный текст в кавычках, указывать тип шрифта и кегль («bold serif headline», «small sans-serif caption»), задавать layout («centered», «left-aligned», «two-column grid»). Для билингвальных макетов (EN + CN на одном изображении) указывать оба языка явно — это сильная сторона именно Qwen Image.
Билингвальный EN + CN режим
Qwen Image — единственная топовая модель, для которой китайский — нативный язык (команда Alibaba). Можно писать промпт на китайском, можно на английском, можно смешивать. Текст в изображении тоже может быть на любом из двух языков или билингвальным.
Конкретные сценарии: маркетинговые материалы для китайского рынка с китайскими заголовками и английскими брендами, инфографика на двух языках для международных команд, комиксы с CJK-текстовыми пузырями, упаковка товаров для китайского e-commerce. Это область, где Qwen Image объективно лучше любой западной модели.
Типичные ошибки
1. Промпт без явного текста для документов
Если генерируешь инфографику, постер или PPT-слайд и не указал точный текст в кавычках — модель сама придумает заголовок и подписи, обычно не то, что нужно. Каждое текстовое поле должно быть в кавычках с пометкой EXACT. Для билингвальных макетов указывай оба языка отдельными блоками.
2. Путаница Qwen Image и Qwen2.5-VL
Qwen Image — генератор изображений. Qwen2.5-VL — vision-модель для анализа изображений. Это две разные модели от разных команд Alibaba. Если в туториале или API сказано «Qwen2.5-VL», это НЕ про генерацию. Для генерации нужен именно Qwen Image V1 или V2.0 — проверь имя репозитория перед запуском.
3. V1 на слабом GPU
Qwen Image V1 требует 40–58GB VRAM — это уровень A100/H100. На потребительских GPU (24GB и ниже) V1 не запустится либо будет работать с серьёзным offloading и низкой скоростью. Для локального запуска и большинства облачных пайплайнов бери V2.0 — 7B параметров, значительно меньше VRAM.
4. Слишком короткий промпт для сложной композиции
V2.0 поддерживает до 1 000 токенов специально для сложных композиций — инфографики, PPT, комиксов. Если просишь 4-панельный комикс одним предложением, модель додумает контент случайным образом. Используй всю длину промпта для перечисления панелей, точного текста, layout, шрифтов, цветов.
5. Полное описание сцены в editing-режиме
В V2.0 unified generation+editing — для editing промпт должен быть инструкцией, а не полным описанием. «Change the title text to "Q4 2026"» работает; «A poster with a Q4 2026 title and modern design» в editing-режиме модель попытается перерисовать целиком. Если хочется новый постер — переключайся на T2I-режим.
Примеры до/после
Пример 1
Было
красивый постер с текстом про распродажу
Стало
A retail sale poster, photorealistic background with shopping bags and gift boxes. Bold serif headline (EXACT): "BLACK FRIDAY" in red, centered top. Subheadline below in white sans-serif: "Up to 70% off — November 28–30". Bottom-right corner: small caption "Free shipping over $50". Two-column grid layout, vertical orientation. Commercial-grade typography.
Точный текст в кавычках с пометкой EXACT, явные шрифты (serif headline + sans-serif sub), цвета и layout. Без этих указаний модель сама придумает текст и расположение — обычно не то, что нужно.
Пример 2
Было
инфографика про продажи компании
Стало
Corporate infographic, white background, clean grid layout. Title (EXACT, centered top, bold sans-serif): "Q4 Revenue Breakdown". Four metric cards in a 2×2 grid, each with a number and label: "$2.4M Total", "+18% YoY", "3 New Markets", "86% Retention". Use Inter sans-serif for all numbers, brand color #1E40AF for highlights, light grey rules between cards. Print-ready commercial typography.
Сложная композиция (2×2 grid) с конкретными цифрами и метками в кавычках. Указан шрифт (Inter), цвет (#1E40AF), пометка print-ready. V2.0 с 1 000 токенов умеет работать с такой плотностью.
Пример 3
Было
комикс с диалогом двух персонажей на китайском и английском
Стало
Two-panel manga-style comic. Panel 1: A young woman in business attire holds a coffee cup, looking out a window. Speech bubble (Chinese): "明天的会议准备好了吗?". Panel 2: Close-up of her phone screen showing a message in English: "Meeting moved to Friday". Clean line art, black ink with light grey shading, white background. Comic-style typography, speech bubbles with thin black borders.
Билингвальный текст (CN в первой панели, EN во второй), оба явно в кавычках. Указан стиль (manga, line art, ink), типографика (comic-style). Это сценарий, в котором Qwen Image обходит большинство западных моделей.