Kling O1: как писать промпты, которые модель понимает
Kuaishou · Обновлено:
Kling O1 — рассуждающая видеомодель Kuaishou на klingai.com. Длительность до 10 секунд, разрешение до 1080p, четыре специализированных режима: I2V, V2V Transform, Reference-to-Video и V2V Edit. Каждый режим требует своей стратегии промптинга — применение неправильной стратегии даёт нестабильные результаты, даже если промпт детальный.
Что такое Kling O1
Kling O1 — reasoning-модель: в отличие от предыдущих версий, она лучше понимает намерение промпта, а не только ключевые слова. Перед генерацией выполняет внутренний анализ сцены, что особенно помогает в сложных составных задачах.
Четыре режима, каждый со своей стратегией промптинга. Image-to-Video для оживления статичных изображений. Video-to-Video Transform для стилевых трансфертов с сохранением исходного движения. Reference-to-Video для генерации с консистентностью элементов из 1–4 референсов. V2V Edit для хирургической точности — модификации конкретных элементов при сохранении всего остального. Качество результата определяется структурой промпта больше, чем количеством слов.
- Reasoning-модель: анализирует намерение, а не только слова
- Четыре режима: I2V, V2V Transform, Ref2V, V2V Edit
- Длительность до 10 секунд, разрешение до 1080p
- До 4 референсов в Reference-to-Video
- Хирургическая точность в V2V Edit с явными якорями сохранения
Общая структура промпта
Базовая структура для всех режимов: [Subject + Primary Action] → [Environmental Context] → [Camera Movement/Perspective] → [Style/Quality Descriptors]. Главное правило — начинать с субъекта и основного действия. Каждый элемент даёт модели конкретный визуальный якорь.
Слабый промпт: «A car driving through a city at sunset». Сильный: «A sleek silver sports car accelerates through a rain-slicked downtown street as golden sunset light breaks through storm clouds, camera tracking alongside at street level, cinematic lighting with volumetric light rays, photorealistic rendering». Разница — конкретные визуальные якоря: внешность машины, состояние улицы, качество освещения, поведение камеры, желаемая эстетика. Оптимальная длина 50–150 слов.
I2V и V2V Transform: разные стратегии
I2V описывает ТОЛЬКО движение. Длина 20–40 слов. Разделяй движение субъекта и камеры: «Camera slowly pushes in while the subject turns their head to look over their shoulder». Темпоральные дескрипторы управляют ритмом: «gradually», «suddenly», «smoothly», «rhythmically». Описывать то, что уже на изображении, — антипаттерн.
V2V Transform — стилевые трансферты с сохранением движения. Формула: «Transform into [целевой стиль] + while maintaining original motion and composition + [конкретные изменения]». Обязательный якорь — «maintaining the original camera movement and subject blocking». Без него модель может внести нежелательные изменения в движение. Пример: «Transform into a cyberpunk cityscape with neon signs, holographic advertisements, and rain-slicked streets reflecting colored lights, maintaining the original camera movement and subject blocking, add volumetric fog and lens flares».
Reference-to-Video и V2V Edit
Ref2V — генерация с консистентностью элементов из 1–4 референсных изображений. Формула: [Персонаж из ref 1] + [Действие/взаимодействие] + [Пространственные отношения] + [Среда из ref N]. Обязательно явно привязать каждый референс к элементу сцены: «Character A (reference 1) stands in the foreground left, turning to hand an object to Character B (reference 2) who enters from the right background». Согласованная терминология — критично: если назвали «the red jacket», не переключайся на «crimson coat».
V2V Edit — хирургическая точность. Формула: «Keeping [что сохранить] identical + change only [что изменить] + [конкретное описание изменения]». Начинать с того, что НЕ меняется: «Keeping all camera movement, subject blocking, and background elements identical, change only the sky to a dramatic sunset with purple and orange clouds». Допустимы негативные инструкции: «Do not alter facial features, do not change body proportions».
Типичные ошибки
1. Применение T2V-стратегии к I2V
Описание внешности персонажа, одежды, окружения внутри I2V-промпта — модель уже видит изображение. Описание сцены в I2V конфликтует с реальной картинкой. Длина 20–40 слов, описывать ТОЛЬКО движение и эволюцию сцены. Разделяй движение субъекта и камеры — это критично для O1.
2. V2V Transform без указания что сохранить
Если в V2V Transform не указать «maintaining the original camera movement and subject blocking», модель часто вносит нежелательные изменения в движение — субъект меняет позу, камера сбивается. Якорь сохранения обязателен в каждом V2V Transform промпте.
3. Несогласованная терминология в Ref2V
Если в первом предложении промпта назвали «the red jacket», а в третьем переключились на «crimson coat» — модель воспринимает это как два разных объекта и может смешать или подменить. Используй одну согласованную формулировку для каждого референсного элемента через весь промпт.
4. V2V Edit без изоляции изменений
Если просто написать «change the sky to sunset» без явного якоря сохранения, V2V Edit меняет всю сцену вместо целевого элемента — освещение, тени, цвета фона. Начинай с того, что сохранить: «Keeping camera movement, subject blocking, and ground lighting identical, change only the sky…».
5. Конфликтующие описания в одном промпте
«Bright sunny day with dark moody shadows», «cheerful upbeat scene with melancholic atmosphere» — внутренние противоречия. O1 как reasoning-модель пытается разрешить конфликт и выдаёт неконтролируемый микс. Держи описание стилистически согласованным или явно указывай прогрессию («scene transitions from bright morning to moody evening»).
Примеры до/после
Пример 1
Было
I2V: «человек идёт к морю»
Стало
Walks slowly toward the ocean with relaxed steps, hair and clothing moving gently in the warm sea breeze, waves rolling onto shore in the background at a steady rhythm, camera slowly pushes in from behind while gradually tilting up to reveal the horizon
I2V в правильном режиме: только движение, без описания внешности; разделение движения субъекта и камеры; темпоральный дескриптор «slowly», «gradually»; послойное описание (foreground subject, background waves).
Пример 2
Было
V2V Transform: «сделай киберпанк»
Стало
Transform into a cyberpunk cityscape with neon signs, holographic advertisements floating between buildings, and rain-slicked streets reflecting saturated magenta and cyan colored lights, maintaining the original camera movement and subject blocking. Add volumetric fog at street level, lens flares on neon signs, and chromatic aberration on bright lights. High-contrast Blade Runner aesthetic with warm amber and cool blue color grading.
Явный якорь сохранения «maintaining the original camera movement and subject blocking», конкретные стилистические якоря (Blade Runner), описание эффектов и цветокоррекции.
Пример 3
Было
V2V Edit: «замени небо на закат»
Стало
Keeping all camera movement, subject blocking, foreground objects, and ground lighting identical, change only the sky to a dramatic sunset with deep purple, orange, and pink cloud formations. Increase contrast in the sky by 15% to match the dramatic mood. Do not alter facial features, do not change body proportions, do not modify the lighting direction on the subject.
Структура V2V Edit: сначала что сохранить (camera, blocking, foreground, ground lighting), потом что изменить (sky only), потом негативные инструкции для гарантии. Маскирующий язык изолирует изменение.