Image

Qwen Image: как писать промпты, которые модель понимает

Alibaba · Обновлено:

Qwen Image — image-модель от команды Alibaba Qwen с лидирующим рендерингом текста: коммерческий уровень на английском и китайском, multi-line layouts, параграфы. V2.0 — 7B параметров, нативные 2048×2048, до 1 000 токенов промпта, прямая генерация инфографики, PPT-слайдов, постеров и комиксов с текстовыми пузырями.

Что умеет Qwen Image

Главная фича — коммерческий рендеринг текста на EN и CN: multi-line, абзацы, заголовки, мелкие подписи. На AI Arena Qwen Image удерживает #1 в категориях T2I и image editing (V2.0). На 9 публичных бенчмарках (GenEval, DPG, OneIG-Bench, GEdit и др.) тоже первый.

V2.0 — основной рабочий вариант: 7B параметров (легче V1 с 20B), значительно меньше VRAM, нативные 2048×2048 без апскейла, и unified generation+editing (одна модель для T2I и редактирования). V1 остаётся для тяжёлых production-пайплайнов с 40–58GB VRAM. Лицензия Apache 2.0 — полные коммерческие права.

  • Коммерческий уровень рендеринга текста (EN + CN)
  • V2.0: нативные 2048×2048, до 1 000 токенов, 7B параметров
  • Прямая генерация инфографики, PPT, постеров, комиксов
  • ControlNet (canny, depth, pose, lineart, softedge, normal, openpose)
  • Unified generation + editing в одной модели

Структура промпта

Подробные описательные промпты с композицией сцены работают лучше всего. Базовая формула: [Main subject] + [Scene composition] + [Style] + [Text content to render] + [Layout details].

Для документов с текстом ВСЕГДА указывай текст явно в промпте — модель не «угадает», что должно быть в заголовке слайда. Для V2.0 можно использовать до 1 000 токенов, и для инфографики/комиксов это не «слишком много», а оптимально: модель умеет работать с плотной композицией.

Для editing промпт — это инструкция, не полное описание. «Change the text to "Q4 2026"» работает; «A poster with text saying...» в editing-режиме — нет.

Рендеринг текста в изображении

Qwen Image — лидер на рынке по точности текста, наравне с GPT Image 2. Multi-line layouts, paragraph-level text, инфографика с графиками и текстовыми блоками, PPT-слайды, комиксы с текстовыми пузырями, постеры с заголовками — всё это V2.0 генерирует прямой генерацией, без отдельного typography engine.

Правила: писать точный текст в кавычках, указывать тип шрифта и кегль («bold serif headline», «small sans-serif caption»), задавать layout («centered», «left-aligned», «two-column grid»). Для билингвальных макетов (EN + CN на одном изображении) указывать оба языка явно — это сильная сторона именно Qwen Image.

Билингвальный EN + CN режим

Qwen Image — единственная топовая модель, для которой китайский — нативный язык (команда Alibaba). Можно писать промпт на китайском, можно на английском, можно смешивать. Текст в изображении тоже может быть на любом из двух языков или билингвальным.

Конкретные сценарии: маркетинговые материалы для китайского рынка с китайскими заголовками и английскими брендами, инфографика на двух языках для международных команд, комиксы с CJK-текстовыми пузырями, упаковка товаров для китайского e-commerce. Это область, где Qwen Image объективно лучше любой западной модели.

Типичные ошибки

  1. 1. Промпт без явного текста для документов

    Если генерируешь инфографику, постер или PPT-слайд и не указал точный текст в кавычках — модель сама придумает заголовок и подписи, обычно не то, что нужно. Каждое текстовое поле должно быть в кавычках с пометкой EXACT. Для билингвальных макетов указывай оба языка отдельными блоками.

  2. 2. Путаница Qwen Image и Qwen2.5-VL

    Qwen Image — генератор изображений. Qwen2.5-VL — vision-модель для анализа изображений. Это две разные модели от разных команд Alibaba. Если в туториале или API сказано «Qwen2.5-VL», это НЕ про генерацию. Для генерации нужен именно Qwen Image V1 или V2.0 — проверь имя репозитория перед запуском.

  3. 3. V1 на слабом GPU

    Qwen Image V1 требует 40–58GB VRAM — это уровень A100/H100. На потребительских GPU (24GB и ниже) V1 не запустится либо будет работать с серьёзным offloading и низкой скоростью. Для локального запуска и большинства облачных пайплайнов бери V2.0 — 7B параметров, значительно меньше VRAM.

  4. 4. Слишком короткий промпт для сложной композиции

    V2.0 поддерживает до 1 000 токенов специально для сложных композиций — инфографики, PPT, комиксов. Если просишь 4-панельный комикс одним предложением, модель додумает контент случайным образом. Используй всю длину промпта для перечисления панелей, точного текста, layout, шрифтов, цветов.

  5. 5. Полное описание сцены в editing-режиме

    В V2.0 unified generation+editing — для editing промпт должен быть инструкцией, а не полным описанием. «Change the title text to "Q4 2026"» работает; «A poster with a Q4 2026 title and modern design» в editing-режиме модель попытается перерисовать целиком. Если хочется новый постер — переключайся на T2I-режим.

Примеры до/после

Пример 1

Было

красивый постер с текстом про распродажу

Стало

A retail sale poster, photorealistic background with shopping bags and gift boxes. Bold serif headline (EXACT): "BLACK FRIDAY" in red, centered top. Subheadline below in white sans-serif: "Up to 70% off — November 28–30". Bottom-right corner: small caption "Free shipping over $50". Two-column grid layout, vertical orientation. Commercial-grade typography.

Точный текст в кавычках с пометкой EXACT, явные шрифты (serif headline + sans-serif sub), цвета и layout. Без этих указаний модель сама придумает текст и расположение — обычно не то, что нужно.

Пример 2

Было

инфографика про продажи компании

Стало

Corporate infographic, white background, clean grid layout. Title (EXACT, centered top, bold sans-serif): "Q4 Revenue Breakdown". Four metric cards in a 2×2 grid, each with a number and label: "$2.4M Total", "+18% YoY", "3 New Markets", "86% Retention". Use Inter sans-serif for all numbers, brand color #1E40AF for highlights, light grey rules between cards. Print-ready commercial typography.

Сложная композиция (2×2 grid) с конкретными цифрами и метками в кавычках. Указан шрифт (Inter), цвет (#1E40AF), пометка print-ready. V2.0 с 1 000 токенов умеет работать с такой плотностью.

Пример 3

Было

комикс с диалогом двух персонажей на китайском и английском

Стало

Two-panel manga-style comic. Panel 1: A young woman in business attire holds a coffee cup, looking out a window. Speech bubble (Chinese): "明天的会议准备好了吗?". Panel 2: Close-up of her phone screen showing a message in English: "Meeting moved to Friday". Clean line art, black ink with light grey shading, white background. Comic-style typography, speech bubbles with thin black borders.

Билингвальный текст (CN в первой панели, EN во второй), оба явно в кавычках. Указан стиль (manga, line art, ink), типографика (comic-style). Это сценарий, в котором Qwen Image обходит большинство западных моделей.

Частые вопросы

Чем Qwen Image V2.0 отличается от V1?
V2.0 — 7B параметров против 20B у V1, нативные 2048×2048 без апскейла, значительно меньше VRAM, поддержка до 1 000 токенов промпта и unified generation+editing в одной модели. V1 остаётся для тяжёлых production-пайплайнов с топовыми GPU, но для большинства задач V2.0 — однозначный выбор: быстрее, дешевле, при этом #1 на AI Arena.
Можно ли писать промпт на китайском?
Да, китайский — нативный язык для Qwen Image. Можно писать промпт целиком на CN, целиком на EN, или смешивать. Текст в изображении тоже может быть на любом из двух языков или билингвальным. Для маркетинговых материалов китайского рынка это сильное преимущество над западными моделями — там CN-рендеринг обычно хуже.
Какое разрешение поддерживается?
V2.0 — нативные 2048×2048 (2K) без апскейла, что критично для печатных материалов и инфографики. V1 — стандартные разрешения 1024×1024 + апскейлинг. Соотношения сторон гибкие, для документов лучше использовать стандартные форматы (A4 portrait, US Letter, 16:9 для PPT-слайдов).
Работает ли ControlNet?
Да, поддерживается 7 типов структурного контроля: canny (edges), depth, pose, lineart, softedge, normal, openpose. Это критично для дизайнерских сценариев — например, можно зафиксировать pose персонажа через openpose или геометрию помещения через depth, а варьировать стиль и текст. Не все ComfyUI/diffusers стеки поддерживают ControlNet для Qwen Image из коробки — проверь документацию.
Какая лицензия у Qwen Image?
Apache 2.0 на обе версии (V1 и V2.0). Это означает полные коммерческие права на использование модели и output: можно встраивать в продукты, продавать сгенерированный контент, использовать в платных сервисах. Это редкость для топовых image-моделей — большинство либо проприетарные, либо с ограничениями на коммерческое использование.
Где запускать Qwen Image?
Официально — Alibaba Cloud (DashScope API) и HuggingFace (веса доступны). На HuggingFace ищи репозитории Qwen team — Qwen-Image и Qwen-Image-2.0. Локально V2.0 запускается на потребительских GPU 16–24GB, V1 требует 40–58GB. Для облачного inference есть Replicate, fal.ai и собственный API Alibaba.
Поддерживается ли Opten для Qwen Image?
Да, расширение Opten распознаёт Qwen Image и оценивает промпты по структуре, специфичной для модели: проверяет наличие явного текста в кавычках для документов, корректное указание билингвальных блоков, отсутствие путаницы с Qwen2.5-VL, использование длины промпта для сложных композиций. Одним кликом можно получить rewrite с правильной структурой.

Похожие модели

Готов писать промпты для Qwen Image (V1 / V2.0) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время