Kling 2.6 Pro: как писать промпты, которые модель понимает
Kuaishou · Обновлено:
Kling 2.6 Pro — видеомодель от Kuaishou, доступная на klingai.com. Генерирует клипы до 10 секунд в 1080p, поддерживает T2V, I2V, Elements (до 4 референсов) и Motion Control. Оптимальная длина промпта 50–150 слов, лучше всего работает с английским и принимает negative prompt как отдельное поле.
Что умеет Kling 2.6 Pro
Kling 2.6 Pro — production-инструмент для коротких видео: продуктовые шоты, ландшафтные таймлапсы, корпоративные спикеры, UGC-стиль контент. Длительность до 10 секунд, разрешение до 1080p, четыре режима: Text-to-Video для генерации с нуля, Image-to-Video для оживления статичных кадров, Elements для консистентности персонажей через 2–4 референса, Motion Control для переноса движений с видео-референса.
Негативный промпт идёт отдельным полем — туда выносятся артефакты и нежелательные элементы. Это даёт более чистый контроль, чем у моделей без negative prompt вроде Imagen.
- Длительность до 10 секунд, разрешение до 1080p
- Четыре режима: T2V, I2V, Elements, Motion Control
- Elements — 2–4 референса для консистентности персонажей и объектов
- Negative prompt как отдельное поле
- Акцент через ++keyword++ для усиления элементов
Четырёхкомпонентная структура промпта
Оптимальная структура для Kling 2.6 Pro: [Scene Setting] + [Subject Description] + [Motion Directives] + [Stylistic Guidance].
Scene Setting — окружение и освещение. «A sunlit coastal highway with dramatic cliffs on one side and sparkling ocean on the other, golden hour lighting with long shadows».
Subject Description — детальное описание главных объектов. «A sleek red convertible sports car with chrome wheels and leather interior».
Motion Directives — чёткая артикуляция движения. «Camera tracks alongside the car as it drives at moderate speed, then gradually pulls back to reveal the expansive coastline».
Stylistic Guidance — визуальная эстетика. «Cinematic 4K quality, shallow depth of field, vibrant color grading». Главное правило — модель сильнее учитывает начало промпта, важное идёт первым.
I2V и Motion Control: разные стратегии
I2V (Image-to-Video) описывает ТОЛЬКО движение, не сцену. Модель уже видит изображение. Длина 20–40 слов, фокус на том, как сцена оживает: «Camera slowly tracks right while maintaining focus on the central figure, subtle wind animation affecting the subject's hair and clothing, leaves in background sway gently, warm lighting gradually intensifies».
Motion Control переносит движения из референсного видео на персонажа из изображения. Промпт описывает ВНЕШНОСТЬ и ОКРУЖЕНИЕ, не движения. Формула: [Стиль/внешность персонажа] + [Среда/фон] + [Визуальное качество]. Пример: «Make the character appear as a polished corporate presenter in a tailored navy suit, realistic skin texture, professional grooming. Place in a modern office environment with glass walls, soft daylight, and shallow depth of field».
Типичные ошибки
1. Описание сцены в I2V-промпте
В Image-to-Video модель уже видит исходное изображение. Описание внешности, одежды, окружения тратит токены и конфликтует с реальной картинкой. I2V-промпт должен быть 20–40 слов и описывать ТОЛЬКО движение и эволюцию сцены — что двигается, как и в каком темпе.
2. Инструкции по движению в Motion Control
Motion Control переносит движения из референсного видео автоматически. «Character dances», «waves hand», «walks energetically» в промпте — главный антипаттерн режима. Промпт описывает арт-дирекцию (как выглядит, где находится, какое качество), а не режиссуру движения.
3. Конфликтующие камерные движения и стили
«360° rotation + zoom in» — множественные одновременные трансформации вызывают деформацию геометрии. «Golden hour» + «studio lighting» в одном промпте путает стилевую интерпретацию модели. Используй одно основное камерное движение и согласованную светотеневую схему по всему промпту.
4. Перегрузка среды деталями
Больше 10 элементов окружения в одном промпте приводит к потере фокуса — модель пытается уместить всё в 10 секунд и упрощает или путает элементы. Оптимально 3–4 ключевых элемента среды с описанием освещения и атмосферы. Лишние детали оставь негативному промпту или Elements.
5. Важная информация в конце промпта
Kling 2.6 Pro сильнее учитывает начало промпта. Если главный субъект или ключевое действие зарыты в последнем предложении, модель приоритизирует то, что прочла первым. Выноси главный субъект и сцену в первые 30–50 слов, дальше добавляй стиль и технические детали.
Примеры до/после
Пример 1
Было
красная машина едет по дороге
Стало
A sunlit coastal highway with dramatic cliffs on one side and sparkling ocean on the other, golden hour lighting with long shadows. A ++sleek red convertible sports car++ with chrome wheels and tan leather interior. Camera tracks alongside the car as it drives at moderate speed along the winding road, then gradually pulls back to reveal the expansive coastline. Cinematic 4K quality, shallow depth of field, vibrant color grading, shot on virtual anamorphic lens, 24mm, f/2.8.
Четырёхкомпонентная структура целиком: scene setting, subject description с акцентом через ++, motion directives с темпом, stylistic guidance с техническими маркерами.
Пример 2
Было
I2V для фото с кафе: «человек пьёт кофе»
Стало
Camera slowly tracks right while the woman raises the cup to her lips and takes a slow sip, steam rising gently from the espresso, leaves in background sway in light breeze, warm afternoon light gradually intensifies
I2V короткий (20–40 слов), описывает только движение и эволюцию сцены. Никаких описаний внешности или одежды — модель уже видит изображение.
Пример 3
Было
Motion Control: «спикер презентует продукт»
Стало
Make the character appear as a polished corporate presenter in a tailored navy suit with a crisp white shirt, realistic skin texture, professional grooming, neat short haircut. Place in a modern office environment with floor-to-ceiling glass walls overlooking a city skyline, soft daylight from above, clean minimalist interior. Cinematic realism with shallow depth of field, professional commercial quality.
Motion Control описывает только внешность и среду. Жесты, мимика и позы для презентации берутся из референсного видео. Инструкции «gestures with hands» здесь — антипаттерн.