Чем Qwen Image V2.0 отличается от V1?

V2.0 — 7B параметров против 20B у V1, нативные 2048×2048 без апскейла, значительно меньше VRAM, поддержка до 1 000 токенов промпта и unified generation+editing в одной модели. V1 остаётся для тяжёлых production-пайплайнов с топовыми GPU, но для большинства задач V2.0 — однозначный выбор: быстрее, дешевле, при этом #1 на AI Arena.

Какое разрешение поддерживается?

V2.0 — нативные 2048×2048 (2K) без апскейла, что критично для печатных материалов и инфографики. V1 — стандартные разрешения 1024×1024 + апскейлинг. Соотношения сторон гибкие, для документов лучше использовать стандартные форматы (A4 portrait, US Letter, 16:9 для PPT-слайдов).

Работает ли ControlNet?

Да, поддерживается 7 типов структурного контроля: canny (edges), depth, pose, lineart, softedge, normal, openpose. Это критично для дизайнерских сценариев — например, можно зафиксировать pose персонажа через openpose или геометрию помещения через depth, а варьировать стиль и текст. Не все ComfyUI/diffusers стеки поддерживают ControlNet для Qwen Image из коробки — проверь документацию.

Какая лицензия у Qwen Image?

Apache 2.0 на обе версии (V1 и V2.0). Это означает полные коммерческие права на использование модели и output: можно встраивать в продукты, продавать сгенерированный контент, использовать в платных сервисах. Это редкость для топовых image-моделей — большинство либо проприетарные, либо с ограничениями на коммерческое использование.

Где запускать Qwen Image?

Официально — Alibaba Cloud (DashScope API) и HuggingFace (веса доступны). На HuggingFace ищи репозитории Qwen team — Qwen-Image и Qwen-Image-2.0. Локально V2.0 запускается на потребительских GPU 16–24GB, V1 требует 40–58GB. Для облачного inference есть Replicate, fal.ai и собственный API Alibaba.

Поддерживается ли Opten для Qwen Image?

Да, расширение Opten распознаёт Qwen Image и оценивает промпты по структуре, специфичной для модели: проверяет наличие явного текста в кавычках для документов, корректное указание билингвальных блоков, отсутствие путаницы с Qwen2.5-VL, использование длины промпта для сложных композиций. Одним кликом можно получить rewrite с правильной структурой.

Image

Qwen Image: как писать промпты, которые модель понимает

Name: Qwen Image (V1 / V2.0)
Brand: Alibaba

Alibaba · Обновлено: 19 мая 2026 г.

Qwen Image — image-модель от команды Alibaba Qwen с лидирующим рендерингом текста: коммерческий уровень на английском и китайском, multi-line layouts, параграфы. V2.0 — 7B параметров, нативные 2048×2048, до 1 000 токенов промпта, прямая генерация инфографики, PPT-слайдов, постеров и комиксов с текстовыми пузырями.

Что умеет Qwen Image

Главная фича — коммерческий рендеринг текста на EN и CN: multi-line, абзацы, заголовки, мелкие подписи. На AI Arena Qwen Image удерживает #1 в категориях T2I и image editing (V2.0). На 9 публичных бенчмарках (GenEval, DPG, OneIG-Bench, GEdit и др.) тоже первый.

V2.0 — основной рабочий вариант: 7B параметров (легче V1 с 20B), значительно меньше VRAM, нативные 2048×2048 без апскейла, и unified generation+editing (одна модель для T2I и редактирования). V1 остаётся для тяжёлых production-пайплайнов с 40–58GB VRAM. Лицензия Apache 2.0 — полные коммерческие права.

Коммерческий уровень рендеринга текста (EN + CN)
V2.0: нативные 2048×2048, до 1 000 токенов, 7B параметров
Прямая генерация инфографики, PPT, постеров, комиксов
ControlNet (canny, depth, pose, lineart, softedge, normal, openpose)
Unified generation + editing в одной модели

Структура промпта

Подробные описательные промпты с композицией сцены работают лучше всего. Базовая формула: [Main subject] + [Scene composition] + [Style] + [Text content to render] + [Layout details].

Для документов с текстом ВСЕГДА указывай текст явно в промпте — модель не «угадает», что должно быть в заголовке слайда. Для V2.0 можно использовать до 1 000 токенов, и для инфографики/комиксов это не «слишком много», а оптимально: модель умеет работать с плотной композицией.

Для editing промпт — это инструкция, не полное описание. «Change the text to "Q4 2026"» работает; «A poster with text saying...» в editing-режиме — нет.

Рендеринг текста в изображении

Qwen Image — лидер на рынке по точности текста, наравне с GPT Image 2. Multi-line layouts, paragraph-level text, инфографика с графиками и текстовыми блоками, PPT-слайды, комиксы с текстовыми пузырями, постеры с заголовками — всё это V2.0 генерирует прямой генерацией, без отдельного typography engine.

Правила: писать точный текст в кавычках, указывать тип шрифта и кегль («bold serif headline», «small sans-serif caption»), задавать layout («centered», «left-aligned», «two-column grid»). Для билингвальных макетов (EN + CN на одном изображении) указывать оба языка явно — это сильная сторона именно Qwen Image.

Билингвальный EN + CN режим

Qwen Image — единственная топовая модель, для которой китайский — нативный язык (команда Alibaba). Можно писать промпт на китайском, можно на английском, можно смешивать. Текст в изображении тоже может быть на любом из двух языков или билингвальным.

Конкретные сценарии: маркетинговые материалы для китайского рынка с китайскими заголовками и английскими брендами, инфографика на двух языках для международных команд, комиксы с CJK-текстовыми пузырями, упаковка товаров для китайского e-commerce. Это область, где Qwen Image объективно лучше любой западной модели.

Типичные ошибки

1. Промпт без явного текста для документов
Если генерируешь инфографику, постер или PPT-слайд и не указал точный текст в кавычках — модель сама придумает заголовок и подписи, обычно не то, что нужно. Каждое текстовое поле должно быть в кавычках с пометкой EXACT. Для билингвальных макетов указывай оба языка отдельными блоками.
2. Путаница Qwen Image и Qwen2.5-VL
Qwen Image — генератор изображений. Qwen2.5-VL — vision-модель для анализа изображений. Это две разные модели от разных команд Alibaba. Если в туториале или API сказано «Qwen2.5-VL», это НЕ про генерацию. Для генерации нужен именно Qwen Image V1 или V2.0 — проверь имя репозитория перед запуском.
3. V1 на слабом GPU
Qwen Image V1 требует 40–58GB VRAM — это уровень A100/H100. На потребительских GPU (24GB и ниже) V1 не запустится либо будет работать с серьёзным offloading и низкой скоростью. Для локального запуска и большинства облачных пайплайнов бери V2.0 — 7B параметров, значительно меньше VRAM.
4. Слишком короткий промпт для сложной композиции
V2.0 поддерживает до 1 000 токенов специально для сложных композиций — инфографики, PPT, комиксов. Если просишь 4-панельный комикс одним предложением, модель додумает контент случайным образом. Используй всю длину промпта для перечисления панелей, точного текста, layout, шрифтов, цветов.
5. Полное описание сцены в editing-режиме
В V2.0 unified generation+editing — для editing промпт должен быть инструкцией, а не полным описанием. «Change the title text to "Q4 2026"» работает; «A poster with a Q4 2026 title and modern design» в editing-режиме модель попытается перерисовать целиком. Если хочется новый постер — переключайся на T2I-режим.

Примеры до/после

Пример 1

Было

красивый постер с текстом про распродажу

Стало

A retail sale poster, photorealistic background with shopping bags and gift boxes. Bold serif headline (EXACT): "BLACK FRIDAY" in red, centered top. Subheadline below in white sans-serif: "Up to 70% off — November 28–30". Bottom-right corner: small caption "Free shipping over $50". Two-column grid layout, vertical orientation. Commercial-grade typography.

Точный текст в кавычках с пометкой EXACT, явные шрифты (serif headline + sans-serif sub), цвета и layout. Без этих указаний модель сама придумает текст и расположение — обычно не то, что нужно.

Пример 2

Было

инфографика про продажи компании

Стало

Corporate infographic, white background, clean grid layout. Title (EXACT, centered top, bold sans-serif): "Q4 Revenue Breakdown". Four metric cards in a 2×2 grid, each with a number and label: "$2.4M Total", "+18% YoY", "3 New Markets", "86% Retention". Use Inter sans-serif for all numbers, brand color #1E40AF for highlights, light grey rules between cards. Print-ready commercial typography.

Сложная композиция (2×2 grid) с конкретными цифрами и метками в кавычках. Указан шрифт (Inter), цвет (#1E40AF), пометка print-ready. V2.0 с 1 000 токенов умеет работать с такой плотностью.

Пример 3

Было

комикс с диалогом двух персонажей на китайском и английском

Стало

Two-panel manga-style comic. Panel 1: A young woman in business attire holds a coffee cup, looking out a window. Speech bubble (Chinese): "明天的会议准备好了吗？". Panel 2: Close-up of her phone screen showing a message in English: "Meeting moved to Friday". Clean line art, black ink with light grey shading, white background. Comic-style typography, speech bubbles with thin black borders.

Билингвальный текст (CN в первой панели, EN во второй), оба явно в кавычках. Указан стиль (manga, line art, ink), типографика (comic-style). Это сценарий, в котором Qwen Image обходит большинство западных моделей.

Qwen Image: как писать промпты, которые модель понимает

Что умеет Qwen Image

Структура промпта

Рендеринг текста в изображении

Билингвальный EN + CN режим

Типичные ошибки

1. Промпт без явного текста для документов

2. Путаница Qwen Image и Qwen2.5-VL

3. V1 на слабом GPU

4. Слишком короткий промпт для сложной композиции

5. Полное описание сцены в editing-режиме

Примеры до/после

Частые вопросы

Похожие модели

Z-Image (Base / Turbo)

Wan (General — 2.5 / 2.6)

Seedream 5 Lite

Готов писать промпты для Qwen Image (V1 / V2.0) в один клик?