Image

Wan: как писать промпты, которые модель понимает

Wan · Обновлено:

Wan — открытая T2I-модель от Alibaba, доступная через fal.ai, Replicate и для локального запуска. Принимает промпты на естественном языке с конкретными деталями субъекта, среды, освещения и камеры. Английский даёт самые стабильные результаты, китайский тоже поддерживается. Рекомендуемая длина промпта — 30-100 токенов.

Что умеет Wan

Wan генерирует изображения в двух режимах: Text-to-Image (T2I) и Image-to-Image (I2I). Текущие версии — Wan 2.5 и Wan 2.6. Максимальное разрешение зависит от платформы, типично до 1024×1024. Модель открытая (open-source) — её можно запускать локально на consumer GPU при наличии достаточного VRAM, либо использовать через API-платформы fal.ai и Replicate.

Из-за открытой природы модели нет специализированных параметров Midjourney-style (`--ar`, `--s`, `::weight`) — всё управляется текстом промпта плюс настройками платформы (разрешение, seed, steps, guidance scale, strength для I2I). Лимит промпта около 500 токенов, но оптимальный диапазон для стабильного результата — 30-100 токенов. Длиннее — детали начинают конфликтовать, модель теряет фокус.

  • Text-to-Image и Image-to-Image режимы
  • Версии Wan 2.5 и Wan 2.6, открытая модель
  • Платформы: fal.ai, Replicate, локальный запуск
  • Оптимальный промпт: 30-100 токенов, лимит ~500
  • Параметры — через настройки платформы, не через флаги

Структура промпта

Оптимальный порядок: [Субъект] + [Детали субъекта] + [Контекст/Среда] + [Стиль/Настроение] + [Освещение] + [Композиция/Камера].

Ключевой принцип — естественный язык с конкретными деталями. Wan хорошо понимает связные описательные промпты, хуже — хаотичные списки тегов через запятую. Главное: субъект всегда в начале. «A young woman in a flowing white dress standing on a rocky cliff» — модель сначала строит фигуру, потом дополняет среду. «Beautiful cinematic photo of...» — модель сначала ловит «cinematic photo» как стиль, и субъект уходит на второй план.

Пример сильного промпта: «A young woman in a flowing white dress standing on a rocky cliff overlooking the ocean at sunset, wind blowing her hair, warm golden light, cinematic composition, photorealistic, 85mm lens, shallow depth of field». Здесь субъект → среда → освещение → стиль → оптика — каждый блок добавляет информации, не конфликтуя с другими.

Освещение, камера, стиль

Освещение задавай через тип света и направление, не через яркость: • Естественное: golden hour, natural sunlight, soft daylight, overcast. • Студийное: studio lighting, softbox, Rembrandt lighting. • Драматичное: dramatic lighting, rim light, backlight, chiaroscuro. • Атмосферное: volumetric light, fog, god rays, haze. • Неоновое: neon glow, neon reflections, cyberpunk lighting.

Камера и оптика — Wan понимает фотографические термины: • Объективы: 85mm, 35mm lens, wide-angle, macro, telephoto. • Ракурс: bird's eye view, low angle, Dutch angle, eye level, worm's eye. • Крупность: extreme close-up, close-up, medium shot, wide shot, full body. • Глубина: shallow depth of field, bokeh, tilt-shift, deep focus.

Художественные стили — photorealistic, hyperrealistic, editorial photography, RAW photo, oil painting, watercolor, impressionist, digital painting, vector art, flat design, minimalist, pixel art, 3D render, CGI, unreal engine, octane render, cinematic, film still, anime style, manga, cel shading.

Image-to-Image: контроль через strength

В I2I-режиме модель использует входное изображение как старт, а промпт описывает желаемый результат. Главный параметр — strength (или denoising strength) — контролирует, насколько сильно промпт влияет относительно исходного изображения. Низкий strength (0.2-0.4) — минимальные правки, сохраняется композиция и большая часть деталей. Средний (0.5-0.7) — заметные изменения стиля, освещения, цвета при сохранении структуры. Высокий (0.8+) — почти полная переинтерпретация, промпт становится главным источником.

Ключевое правило: промпт описывает ЖЕЛАЕМЫЙ РЕЗУЛЬТАТ, не исходное изображение. «A painted portrait in oil painting style, dramatic side lighting, warm tones» — модель применит эти трансформации к исходному фото. Если в промпте описывать то, что и так на фото, эффекта не будет. Для радикальных изменений увеличивай strength, для деликатной коррекции — уменьшай.

Типичные ошибки

  1. 1. Спам словами качества

    «Beautiful, stunning, 8k, detailed, masterpiece, best quality, ultra HD, award winning» — засоряет промпт без реальной пользы. Эти слова статистически бессмысленны для Wan и конфликтуют между собой. Заменяй конкретикой: «sharp focus, fine detail visible, natural texture, hyperrealistic, editorial photography». Конкретные параметры работают.

  2. 2. Стиль или прилагательные в начале вместо субъекта

    «Beautiful cinematic photo of a woman» — модель сначала ловит «beautiful cinematic photo» как стиль, и субъект становится вторичным. Правильно: «A young woman with auburn hair... beautiful cinematic photo style». Самое важное — субъект с деталями — должно быть в первом предложении промпта.

  3. 3. Хаотичный список тегов через запятую

    «woman, red dress, sunset, beach, ocean, sand, beautiful, photo, cinematic, 4k, detail» — Wan хуже понимает несвязные списки, чем естественные описательные предложения. Заменяй на связный текст: «A woman in a red dress walking along a sandy beach at sunset, ocean waves behind her. Cinematic photography, warm tones.».

  4. 4. Противоречивые инструкции

    «Dark and moody, bright and cheerful, cool blue tones, warm golden light» — модель не может выполнить противоречие и либо игнорирует часть, либо выдаёт смешанный результат с провалами. Выбирай одно направление настроения и придерживайся его. Если нужны разные настроения, генерируй разные изображения.

  5. 5. Синтаксис Midjourney или SD

    Параметры вида `--ar 16:9`, `--style raw`, веса `(beautiful:1.5)`, `::weight` — не работают в Wan и попадают в промпт как буквальный текст. Размер задавай в настройках платформы, веса регулируй порядком слов (важное — в начало), стили — нормальными прилагательными в естественном языке.

Примеры до/после

Пример 1

Было

a beautiful landscape

Стало

A majestic snow-covered mountain peak under a sky of swirling aurora borealis, deep purple and emerald green light bands above. Foreground: a solitary pine tree on a frozen lake reflecting the colors. Wide-angle landscape composition, low angle looking up. Cinematic lighting, hyperrealistic, sharp focus, fine detail visible in the ice and snow texture. 24mm lens, deep focus.

Конкретный субъект, явный передний план, описание цветов вместо «beautiful», камера и оптика, стиль через «hyperrealistic» вместо «8k masterpiece».

Пример 2

Было

elderly man portrait

Стало

An elderly fisherman with deeply weathered skin, a thick white beard, and piercing blue eyes, wearing a worn navy wool sweater. He sits on a wooden bench, hands folded in his lap. Soft window light from screen-left creating Rembrandt lighting on his face, warm golden tones. Background: out-of-focus harbor with fishing boats. Editorial portrait photography, 85mm lens, shallow depth of field, photorealistic.

Конкретные детали внешности, явный сетап освещения с направлением (Rembrandt lighting), оптика, стилистический референс «editorial portrait photography».

Пример 3

Было

futuristic city at night

Стало

A neon-soaked cyberpunk Tokyo street at midnight, rain-soaked asphalt reflecting magenta and cyan signs, holographic advertisements floating above traffic. Crowds of people in dark clothing crossing under giant LED screens. Wide-angle low-angle shot looking up between skyscrapers. Cyberpunk lighting with strong neon glow, deep shadows, volumetric haze. Cinematic, film still, sharp focus on the foreground signs, soft bokeh on background lights. 35mm lens, dramatic perspective.

Конкретный сеттинг и время, цветовые якоря через названия цветов, объёмная атмосфера, явное освещение и оптика. «Cyberpunk» работает как стиль без спама качества.

Частые вопросы

Какие версии Wan существуют?
Текущие версии — Wan 2.5 и Wan 2.6 от команды Wan-AI / Alibaba. Это открытые (open-source) модели, доступные через API-платформы fal.ai и Replicate, а также для локального запуска. На уровне промптинга подходы между версиями совпадают: естественный язык, субъект в начале, конкретика вместо абстракций. Детали и качество улучшаются от версии к версии.
Какой оптимальный размер промпта для Wan?
Рекомендуемый диапазон — 30-100 токенов (примерно 25-80 слов). Это даёт пространство для описания субъекта, среды, освещения и стиля без перегрузки. Лимит модели — около 500 токенов, но промпты длиннее 100 токенов начинают терять фокус: детали конфликтуют, модель смешивает приоритеты. Для очень детальных задач лучше брать другую модель.
Можно ли писать промпты на русском или китайском?
Английский даёт наиболее стабильные результаты, особенно для фотографических и стилистических терминов. Китайский тоже поддерживается нативно — Wan тренировался на bilingual датасетах. Русский технически работает, но качество ниже: некоторые описательные конструкции и термины модель интерпретирует менее точно. Для production-задач рекомендуется английский.
Как использовать Image-to-Image режим?
Загружаешь исходное изображение и пишешь промпт, описывающий ЖЕЛАЕМЫЙ РЕЗУЛЬТАТ. Главный параметр — strength (denoising strength): низкий (0.2-0.4) — минимальные правки, средний (0.5-0.7) — изменения стиля и цвета, высокий (0.8+) — почти полная переинтерпретация. Промпт НЕ должен описывать содержимое исходного фото — фокус на трансформации.
Поддерживает ли Wan негативные промпты?
Да, через настройки платформы (fal.ai, Replicate, локальный запуск) — большинство интерфейсов поддерживают отдельное поле negative prompt. Туда указывай то, что НЕ должно быть в изображении: «watermark, text, blurry, low quality, deformed». В основном промпте не используй негативных формулировок — они работают хуже, чем отдельное поле.
Почему результаты выглядят менее качественно, чем у Midjourney?
Wan — открытая модель с меньшей тренировочной базой и без специализированных post-training optimizations, которые делают Midjourney «красивым из коробки». Wan даёт больше контроля и гибкости (можно запускать локально, fine-tunить под LoRA, использовать ControlNet), но требует более точных промптов. Не стилизуй абстрактно «beautiful» — описывай конкретные параметры света, оптики и палитры.
Поддерживается ли Opten для Wan?
Да, расширение Opten распознаёт Wan на платформах fal.ai и Replicate и оценивает промпты по структуре, описанной выше: проверяет наличие конкретного субъекта в начале, естественную языковую структуру вместо тегов, конкретное освещение и оптику, отсутствие спама качества и Midjourney-синтаксиса. Одним кликом можно получить rewrite в правильной структуре.

Похожие модели

Готов писать промпты для Wan (General — 2.5 / 2.6) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время