Luma Uni-1: как писать промпты, которые модель понимает
Luma · Обновлено:
Luma Uni-1 — image-модель Luma Labs с уникальной архитектурой: decoder-only autoregressive transformer (НЕ диффузия), генерирует пиксели последовательно. Нативное 2K разрешение, reasoning по умолчанию (модель «думает» о композиции перед рендером), до 9 референсов с явными ролями (CHARACTER, STYLE, LIGHTING и др.), сильная мультиязычность. Доступна через Luma Labs и REST API.
Что отличает Uni-1
Uni-1 — это не диффузионная модель. Архитектура decoder-only autoregressive transformer генерирует пиксели последовательно, что даёт ей уникальные преимущества: сильное удержание спатиальных отношений, лучшая работа с многореференсными композициями, поддержка раскадровок с консистентностью персонажа, и встроенный reasoning, который «думает» о визуальном намерении перед рендером.
Практические следствия: Uni-1 заметно сильнее диффузий на сложных композиционных промптах типа «собака на красном диване, спиной к зрителю, в левой трети кадра, через окно виден дождливый город». Но Uni-1 медленнее диффузий (~40–50 секунд для 2K с reasoning) и не оптимальна для high-volume A/B тестов.
- Decoder-only autoregressive, не диффузия
- Нативное 2K без апскейла
- До 9 референсов с явными ролями
- Reasoning по умолчанию (intent_weight на API)
- Storyboard режим с консистентностью персонажа
Структура промпта и шаблоны
Универсальный «Fast Start» шаблон (закрывает 80% задач): `A [субъект], in [стиль], with [освещением], [камера/композиция], [окружение/фон], mood: [эмоция], details: [ключевые специфики]`.
Пример: «A ceramic artist shaping a lopsided bowl, documentary photography style, soft window lighting, close-up shot, cluttered home studio background, mood: focused and quiet, details: clay-covered hands, imperfect texture, tools scattered on wooden table».
Uni-1 ждёт связных предложений или явных секций, не tag soup. Модель сильнее реагирует на структурированные промпты с явными секциями (Subject, Style, Lighting, Camera, Mood, Details), чем на сырую прозу. Простые теги через запятую работают хуже, чем в диффузиях.
8 шаблонов Uni-1
Uni-1 Field Guide определяет 8 шаблонов под разные задачи. Fast Start — для большинства задач, исследования и первых идей. Cinematic Control — структурированный кинематографический брифинг с раздельными блоками Subject/Style/Scene/Camera/Details. Direct Edit — точечное редактирование в режиме Modify с эксплицитным Keep-блоком.
Multi-Reference Fusion — комбинирование 2–9 референсов с ролями (IMAGE 1: use as CHARACTER, IMAGE 2: use for STYLE, IMAGE 3: use as LIGHTING). Layout Control — прямое указание зон (LEFT / CENTER / RIGHT / BACKGROUND) с описанием объектов в каждой. Storyboard Generator — раскадровка с сохранением персонажа через несколько кадров.
Loose / Creative Mode — фрагменты-настроение для ранней идеации («туман, пыль, утро, тишина»). Structured JSON — для разработчиков, формальная структура. Выбор шаблона зависит от задачи: режим важнее тегов.
Reference роли и Keep-блок
Главная фича Uni-1 — назначение ролей референсам. Возможные роли: CHARACTER, STYLE, LIGHTING, COMPOSITION, OUTFIT, BACKGROUND, POSE. Каждой одну роль — это снижает конфликты между референсами.
Пример: «Combine the following: IMAGE 1: use as CHARACTER reference. Preserve their exact facial features, bone structure, skin tone, and age. IMAGE 2: use for STYLE — painterly digital illustration. IMAGE 3: use as LIGHTING reference — soft golden hour. Output: editorial portrait of the character in a city park, mood: contemplative.»
Keep-блок — критичен в режиме Modify. Без явного «Keep: face, identity, pose, lighting» модель дрейфует и меняет то, что не просили. Шаблон Direct Edit: `Edit instructions: Change: [что меняется], Keep: [что должно остаться], Style shift: [опционально], Lighting: [опционально], Details: [специфические правки]`. Это главный приём против drift.
Типичные ошибки
1. Tag soup без структуры
Uni-1 — не диффузия, она ждёт связных предложений или явных секций. «cat, fluffy, garden, sunny, big eyes, flowers» работает значительно хуже, чем связное описание или Fast Start шаблон с явными секциями (subject, style, lighting, camera, mood, details). Простые теги через запятую не используют сильную сторону Uni-1.
2. Конфликт ролей у референсов
Два IMAGE с одинаковой ролью (например, оба назначены как CHARACTER) дают drift — модель не знает, какой из них главный. Назначай уникальные роли каждому референсу: один CHARACTER, другой STYLE, третий LIGHTING. Это снижает конфликты и даёт чистый фьюжн.
3. Отсутствие Keep-блока в Modify
В режиме Modify без явного Keep модель может изменить то, что не просили — лицо, позу, свет, окружение. Каждый Modify-промпт должен иметь блок «Keep: [конкретный список того, что не трогать]». Для итеративного редактирования повторяй Keep на каждой итерации.
4. Параметры синтаксиса других моделей
Midjourney `--ar`, `::weight`, `(keyword:1.2)` от Stable Diffusion, BREAK не работают в Uni-1 и попадают в текст промпта как мусор. Размеры указывай явно («2K», «portrait», «landscape»), вес слов регулируй порядком и явными ролями референсов, стили — нормальными прилагательными или явной секцией Style.
5. Слишком много стилей одновременно
«photorealistic + anime + watercolor» без явного намерения ломает результат. Uni-1 пытается совместить несовместимое и даёт странный гибрид. Если хочешь смесь стилей — назначь их разным референсам (IMAGE 1 STYLE: photorealism, IMAGE 2 STYLE: watercolor texture), либо используй один доминантный стиль с акцентами.
Примеры до/после
Пример 1
Было
ceramic artist, beautiful, detailed studio
Стало
A ceramic artist shaping a lopsided bowl, documentary photography style, soft window lighting, close-up shot, cluttered home studio background, mood: focused and quiet, details: clay-covered hands, imperfect texture, tools scattered on wooden table.
Fast Start шаблон закрывает 80% задач. Структура: [субъект] + [стиль] + [свет] + [камера/композиция] + [фон] + mood + details. Каждая секция даёт модели опору, на которую она опирается в reasoning-проходе.
Пример 2
Было
portrait combining 3 references
Стало
Combine the following: IMAGE 1: use as CHARACTER reference. Preserve facial features, bone structure, skin tone. IMAGE 2: use for STYLE — painterly digital illustration with visible brush strokes. IMAGE 3: use as LIGHTING reference — soft golden hour side light. Output: Subject: editorial portrait of the character in a city park during autumn. Style: dominant from IMAGE 2. Composition: rule of thirds, medium close-up. Details: warm autumn palette, soft shadow on the right side.
Multi-Reference Fusion с явными ролями — главный приём Uni-1 при ≥2 референсах. Конфликт ролей (два IMAGE как CHARACTER) даёт drift. Уникальные роли + блок Output с конкретикой = чистый фьюжн.
Пример 3
Было
remove the wall behind the subject (Modify)
Стало
Edit instructions: Change: replace the brick wall behind the subject with a soft out-of-focus city skyline at golden hour. Keep: subject's face, identity, pose, clothing, exact lighting on the face, framing. Style shift: documentary photography. Details: warm orange tones in background, slight bokeh, no harsh edges around subject.
Direct Edit шаблон с эксплицитным Keep — критичен в режиме Modify. Без Keep модель меняет то, что не просили (лицо, позу, свет). Keep-список фиксирует контракт: что трогать, что нет.