Wan: как писать промпты, которые модель понимает
Wan · Обновлено:
Wan — открытая T2I-модель от Alibaba, доступная через fal.ai, Replicate и для локального запуска. Принимает промпты на естественном языке с конкретными деталями субъекта, среды, освещения и камеры. Английский даёт самые стабильные результаты, китайский тоже поддерживается. Рекомендуемая длина промпта — 30-100 токенов.
Что умеет Wan
Wan генерирует изображения в двух режимах: Text-to-Image (T2I) и Image-to-Image (I2I). Текущие версии — Wan 2.5 и Wan 2.6. Максимальное разрешение зависит от платформы, типично до 1024×1024. Модель открытая (open-source) — её можно запускать локально на consumer GPU при наличии достаточного VRAM, либо использовать через API-платформы fal.ai и Replicate.
Из-за открытой природы модели нет специализированных параметров Midjourney-style (`--ar`, `--s`, `::weight`) — всё управляется текстом промпта плюс настройками платформы (разрешение, seed, steps, guidance scale, strength для I2I). Лимит промпта около 500 токенов, но оптимальный диапазон для стабильного результата — 30-100 токенов. Длиннее — детали начинают конфликтовать, модель теряет фокус.
- Text-to-Image и Image-to-Image режимы
- Версии Wan 2.5 и Wan 2.6, открытая модель
- Платформы: fal.ai, Replicate, локальный запуск
- Оптимальный промпт: 30-100 токенов, лимит ~500
- Параметры — через настройки платформы, не через флаги
Структура промпта
Оптимальный порядок: [Субъект] + [Детали субъекта] + [Контекст/Среда] + [Стиль/Настроение] + [Освещение] + [Композиция/Камера].
Ключевой принцип — естественный язык с конкретными деталями. Wan хорошо понимает связные описательные промпты, хуже — хаотичные списки тегов через запятую. Главное: субъект всегда в начале. «A young woman in a flowing white dress standing on a rocky cliff» — модель сначала строит фигуру, потом дополняет среду. «Beautiful cinematic photo of...» — модель сначала ловит «cinematic photo» как стиль, и субъект уходит на второй план.
Пример сильного промпта: «A young woman in a flowing white dress standing on a rocky cliff overlooking the ocean at sunset, wind blowing her hair, warm golden light, cinematic composition, photorealistic, 85mm lens, shallow depth of field». Здесь субъект → среда → освещение → стиль → оптика — каждый блок добавляет информации, не конфликтуя с другими.
Освещение, камера, стиль
Освещение задавай через тип света и направление, не через яркость: • Естественное: golden hour, natural sunlight, soft daylight, overcast. • Студийное: studio lighting, softbox, Rembrandt lighting. • Драматичное: dramatic lighting, rim light, backlight, chiaroscuro. • Атмосферное: volumetric light, fog, god rays, haze. • Неоновое: neon glow, neon reflections, cyberpunk lighting.
Камера и оптика — Wan понимает фотографические термины: • Объективы: 85mm, 35mm lens, wide-angle, macro, telephoto. • Ракурс: bird's eye view, low angle, Dutch angle, eye level, worm's eye. • Крупность: extreme close-up, close-up, medium shot, wide shot, full body. • Глубина: shallow depth of field, bokeh, tilt-shift, deep focus.
Художественные стили — photorealistic, hyperrealistic, editorial photography, RAW photo, oil painting, watercolor, impressionist, digital painting, vector art, flat design, minimalist, pixel art, 3D render, CGI, unreal engine, octane render, cinematic, film still, anime style, manga, cel shading.
Image-to-Image: контроль через strength
В I2I-режиме модель использует входное изображение как старт, а промпт описывает желаемый результат. Главный параметр — strength (или denoising strength) — контролирует, насколько сильно промпт влияет относительно исходного изображения. Низкий strength (0.2-0.4) — минимальные правки, сохраняется композиция и большая часть деталей. Средний (0.5-0.7) — заметные изменения стиля, освещения, цвета при сохранении структуры. Высокий (0.8+) — почти полная переинтерпретация, промпт становится главным источником.
Ключевое правило: промпт описывает ЖЕЛАЕМЫЙ РЕЗУЛЬТАТ, не исходное изображение. «A painted portrait in oil painting style, dramatic side lighting, warm tones» — модель применит эти трансформации к исходному фото. Если в промпте описывать то, что и так на фото, эффекта не будет. Для радикальных изменений увеличивай strength, для деликатной коррекции — уменьшай.
Типичные ошибки
1. Спам словами качества
«Beautiful, stunning, 8k, detailed, masterpiece, best quality, ultra HD, award winning» — засоряет промпт без реальной пользы. Эти слова статистически бессмысленны для Wan и конфликтуют между собой. Заменяй конкретикой: «sharp focus, fine detail visible, natural texture, hyperrealistic, editorial photography». Конкретные параметры работают.
2. Стиль или прилагательные в начале вместо субъекта
«Beautiful cinematic photo of a woman» — модель сначала ловит «beautiful cinematic photo» как стиль, и субъект становится вторичным. Правильно: «A young woman with auburn hair... beautiful cinematic photo style». Самое важное — субъект с деталями — должно быть в первом предложении промпта.
3. Хаотичный список тегов через запятую
«woman, red dress, sunset, beach, ocean, sand, beautiful, photo, cinematic, 4k, detail» — Wan хуже понимает несвязные списки, чем естественные описательные предложения. Заменяй на связный текст: «A woman in a red dress walking along a sandy beach at sunset, ocean waves behind her. Cinematic photography, warm tones.».
4. Противоречивые инструкции
«Dark and moody, bright and cheerful, cool blue tones, warm golden light» — модель не может выполнить противоречие и либо игнорирует часть, либо выдаёт смешанный результат с провалами. Выбирай одно направление настроения и придерживайся его. Если нужны разные настроения, генерируй разные изображения.
5. Синтаксис Midjourney или SD
Параметры вида `--ar 16:9`, `--style raw`, веса `(beautiful:1.5)`, `::weight` — не работают в Wan и попадают в промпт как буквальный текст. Размер задавай в настройках платформы, веса регулируй порядком слов (важное — в начало), стили — нормальными прилагательными в естественном языке.
Примеры до/после
Пример 1
Было
a beautiful landscape
Стало
A majestic snow-covered mountain peak under a sky of swirling aurora borealis, deep purple and emerald green light bands above. Foreground: a solitary pine tree on a frozen lake reflecting the colors. Wide-angle landscape composition, low angle looking up. Cinematic lighting, hyperrealistic, sharp focus, fine detail visible in the ice and snow texture. 24mm lens, deep focus.
Конкретный субъект, явный передний план, описание цветов вместо «beautiful», камера и оптика, стиль через «hyperrealistic» вместо «8k masterpiece».
Пример 2
Было
elderly man portrait
Стало
An elderly fisherman with deeply weathered skin, a thick white beard, and piercing blue eyes, wearing a worn navy wool sweater. He sits on a wooden bench, hands folded in his lap. Soft window light from screen-left creating Rembrandt lighting on his face, warm golden tones. Background: out-of-focus harbor with fishing boats. Editorial portrait photography, 85mm lens, shallow depth of field, photorealistic.
Конкретные детали внешности, явный сетап освещения с направлением (Rembrandt lighting), оптика, стилистический референс «editorial portrait photography».
Пример 3
Было
futuristic city at night
Стало
A neon-soaked cyberpunk Tokyo street at midnight, rain-soaked asphalt reflecting magenta and cyan signs, holographic advertisements floating above traffic. Crowds of people in dark clothing crossing under giant LED screens. Wide-angle low-angle shot looking up between skyscrapers. Cyberpunk lighting with strong neon glow, deep shadows, volumetric haze. Cinematic, film still, sharp focus on the foreground signs, soft bokeh on background lights. 35mm lens, dramatic perspective.
Конкретный сеттинг и время, цветовые якоря через названия цветов, объёмная атмосфера, явное освещение и оптика. «Cyberpunk» работает как стиль без спама качества.