LTX 2: как писать промпты, которые модель понимает
LTX · Обновлено:
LTX 2 — open-source видеомодель от Lightricks на ltx.io. Существует в двух версиях: Fast (до 20 секунд, 2× быстрее) и Pro (до 10 секунд, плюс Audio-to-Video и Retake). Нативное 4K до 50 FPS, генерация аудио, Apache-лицензия. Промпт пишется как кинематографический shot list, оптимальная длина около 200 слов на английском.
Что умеет LTX 2
LTX 2 — open-source видеомодель с архитектурой Diffusion Transformer (DiT). Главные технические преимущества: нативное 4K (2160p) до 50 FPS — максимальное разрешение среди опрошенных моделей; нативная генерация аудио (диалоги, музыка, эмбиент, SFX) синхронно с видео; полные веса доступны на HuggingFace под Apache-лицензией; поддержка LoRA fine-tuning для кастомных стилей и движений.
Две версии решают разные задачи. LTX 2 Fast — до 20 секунд, 2× быстрее и 1/10 стоимости compute. LTX 2 Pro — до 10 секунд, плюс эксклюзивные режимы: Audio-to-Video (генерация видео по аудио-треку), Retake (перегенерация участка без перезапуска), Extend. Negative prompt поддерживается в обеих версиях.
- Нативное 4K (2160p) до 50 FPS — рекорд среди моделей
- LTX 2 Fast: до 20 секунд, 2× быстрее, 1/10 compute
- LTX 2 Pro: до 10 секунд, A2V, Retake, Extend
- Нативное аудио синхронно с видео
- Open source, Apache-лицензия, LoRA fine-tuning
6-элементная структура промпта
Официальная структура от Lightricks — пиши как shot list оператора, подробные хронологические описания в формате параграфа. Шесть элементов:
1. Shot type / camera position — кинематографические термины (wide shot, medium close-up, low-angle establishing). 2. Environment — освещение, цветовая палитра, текстуры, атмосфера. 3. Action — естественная последовательность в present-tense, от начала к концу. 4. Character details — возраст, причёска, одежда, отличительные черты. 5. Camera movement — как и когда; описание post-movement помогает. 6. Audio description — эмбиент, музыка, речь, пение.
Не все элементы обязательны для простых сцен, но 6-элементная структура — идеал для production-задач.
Ключевой принцип: длина промпта = длина видео
Уникальная особенность LTX 2 — корреляция длины промпта с длительностью видео. Короткий промпт для длинного видео вызывает «rushing»: модель торопится уместить всё в начало и потом не знает, что делать дальше. Для 10-секундного видео нужно ~200 слов хронологического описания.
Lens/aperture language снижает артефакты: «50mm, f/2.8» уменьшает мерцание краёв. Explicit camera paths (dolly, crane, orbit) снижают temporal jitter — указывай конкретную траекторию камеры, а не общее «cinematic camera». При генерации 4K стоит добавлять в negative prompt «no high-frequency patterns» — иначе могут появиться moiré-артефакты на текстурах.
Для автоматического улучшения промпта используется флаг `enhance_prompt=True` — модель сама расширит описание до оптимальной длины.
Типичные ошибки
1. Короткий промпт для длинного видео
Уникальный антипаттерн LTX 2: длина промпта должна соответствовать длительности видео. Промпт в 10 слов для 10-секундного клипа вызывает «rushing» — модель торопится уместить всё в начало. Для 10 секунд нужно ~200 слов хронологического описания с прогрессией от начала к концу.
2. Конфликтующие описания
«Still peaceful lake with dramatic waves crashing», «bright sunny day with dark moody shadows» — внутренние противоречия. LTX 2 пытается совместить несовместимое и выдаёт неконтролируемый результат. Держи описание стилистически согласованным или явно указывай прогрессию во времени.
3. Отсутствие описания аудио
LTX 2 генерирует аудио нативно, и описание звукового ландшафта значительно улучшает результат. Без явного описания модель выбирает «средний» аудио-вариант, часто менее выразительный. Добавляй блок «Ambient sound of…», «Soft piano in the background…», «Character speaks in…» — это полноценный шестой элемент 6-элементной структуры.
4. High-frequency patterns в 4K без negative guardrail
При генерации 4K высокочастотные паттерны (тонкие полосы, мелкие сетки, плотные текстуры) могут вызвать moiré-артефакты. Добавляй в negative prompt «no high-frequency patterns, no moiré, no aliasing» — это страховка специфичная для разрешений 2K и выше.
5. Описание изображения в I2V вместо движения
Как и в Kling, в Image-to-Video модель уже видит исходное изображение. Описание внешности, одежды, окружения внутри I2V-промпта конфликтует с реальной картинкой. Длина 20–40 слов, описывать ТОЛЬКО движение и эволюцию сцены — что двигается, как и в каком темпе.
Примеры до/после
Пример 1
Было
девушка идёт по пляжу на закате
Стало
Wide establishing shot at golden hour. A long stretch of empty Pacific coast with warm amber sunlight bathing the wet sand, soft pastel pink and orange sky reflecting on shallow waves, low rolling fog at the horizon. A young woman in her late twenties with long auburn hair tied loosely, wearing a cream linen sundress and bare feet, walks slowly from the right side of the frame toward the receding waves. She pauses, lifts her face to the sun, then continues walking parallel to the shoreline. Camera follows her with a smooth tracking dolly from a medium distance, gradually pulling back to reveal the vastness of the coast by the end of the clip. Shot on 50mm lens at f/2.8, shallow depth of field with soft bokeh on the background. Gentle ambient sound of waves rolling in and seagulls in the distance, soft acoustic guitar melody fades in around the 4-second mark.
Полная 6-элементная структура: shot type, environment, character, action, camera movement, audio. Длина ~150 слов под 10-секундное видео, lens language (50mm, f/2.8), хронологическая прогрессия от начала к концу.
Пример 2
Было
уличная сцена в тумане
Стало
Medium low-angle tracking shot at pre-dawn blue hour. A narrow cobblestone alley in a European old town, dense morning fog drifts at ankle level, wet cobblestones reflecting muted blue light from antique street lamps, brick walls covered in ivy, deep shadows between buildings. A man in his forties wearing a long charcoal wool coat and grey fedora walks deliberately away from the camera into the fog, hands in pockets. Camera dollies forward at the same pace as the subject, maintaining constant distance for the first 5 seconds, then gradually slows as he disappears into the fog. 35mm lens at f/2.0, anamorphic flares from street lamps, film grain texture. Ambient sound of distant church bells and faint footsteps on wet stone, a low cello drone gradually builds tension throughout the clip.
Lens/aperture language (35mm, f/2.0), explicit camera path (dolly forward, gradually slows), хронологический ритм с timestamp («for the first 5 seconds», «throughout the clip»), полный аудио-дизайн.
Пример 3
Было
продуктовый шот часов
Стало
Macro close-up product shot in studio. A premium stainless-steel automatic watch with sapphire crystal face, exposed mechanical movement visible through the case, dark navy leather strap with white stitching, placed on a black slate surface with soft directional rim lighting from the right. Camera orbits slowly around the watch at the same elevation, completing a quarter turn over the duration of the clip, revealing different angles of the case and dial. Shot on 100mm macro lens at f/4, razor-sharp focus on the mechanical movement, soft falloff into the background. Subtle ambient sound of the mechanical tick-tock of the watch movement clearly audible, distant soft piano in the background. No high-frequency patterns.
Продуктовая сцена в 4K с guardrail в negative («no high-frequency patterns» против moiré), explicit camera path (orbit, quarter turn), lens language (100mm macro, f/4), описание аудио для подчёркивания механики.