Kling 3.0: как писать промпты, которые модель понимает
Kuaishou · Обновлено:
Kling 3.0 — флагманская видеомодель Kuaishou на klingai.com. Длительность до 15 секунд, Multi-shot до 6 шотов в одной генерации, нативная генерация диалогов и аудио с управлением тоном голоса, мультиязычные акценты и code-switching. Создана для понимания режиссёрского намерения, а не просто списка объектов.
Что нового в Kling 3.0
Kling 3.0 — крупный апгрейд видеомодели Kuaishou. Длительность одной генерации выросла с 10 до 15 секунд, что позволяет уместить реальное нарративное развитие. Главная фича версии — Multi-shot: до 6 шотов в одной генерации с автоматической вариацией ракурсов и сохранением нарративной непрерывности.
Нативная генерация аудио появилась впервые в семействе: диалоги с уникальным тоном голоса для каждого персонажа, эмбиент, музыка, SFX. Поддерживаются мультиязычные диалоги, акценты и code-switching внутри одной сцены. Модель отлично сохраняет идентичность, макет и даже текст из исходного изображения в I2V — критично для брендированного контента.
- Длительность до 15 секунд (против 10 в Kling 2.6 Pro)
- Multi-shot: до 6 шотов с нарративной непрерывностью
- Нативное аудио: диалоги, эмбиент, музыка, SFX
- Мультиязычные диалоги с акцентами и code-switching
- Сохранение текста и логотипов из исходного изображения в I2V
Структура промпта как режиссёрский сценарий
Kling 3.0 создан для понимания кинематографического намерения, а не просто визуальных описаний. Промпты должны быть написаны как режиссёрские указания, а не как список объектов.
Оптимальная структура: [Scene Setup + Atmosphere] + [Character Introduction] + [Action/Dialogue Sequence] + [Camera Direction] + [Audio/Sound Design]. Закрепляй персонажей в начале промпта и сохраняй их описания согласованными через все шоты — модель фиксирует черты персонажей, объектов и окружений.
Явно описывай движение камеры: «tracking», «following», «freezing», «panning», «moving in sync». Длинные дубли работают лучше, когда чётко описано, как камера соотносится с субъектом. Оптимальная длина 50–200 слов (длиннее для multi-shot).
Multi-shot: до 6 шотов в одной генерации
Ключевая фича Kling 3.0. Multi-shot позволяет создать раскадровку из нескольких шотов в одной генерации с нарративной непрерывностью.
Формула: Master Prompt: [общее описание сцены] Multi shot Prompt 1: [описание шота 1] (Duration: Xс) Multi shot Prompt 2: [описание шота 2] (Duration: Xс)
Каждый шот должен иметь свой кадр, действие и хронометраж. Master Prompt задаёт общий контекст. Модель автоматически варьирует ракурсы и композиции, сохраняя нарративную непрерывность между шотами. Поддерживаемые типы: profile shots, macro close-ups, tracking shots, POV, shot-reverse-shot для диалогов. Multi-shot без чёткой маркировки отдельных шотов — главный антипаттерн режима.
Диалоги с нативным аудио
Kling 3.0 поддерживает генерацию диалогов с привязкой к персонажам. Четыре обязательных принципа:
Структурное наименование: уникальные метки персонажей через весь промпт — `[Character A: Black-suited Agent]` и `[Character B: Female Assistant]`. Местоимения вместо меток («he says…») — антипаттерн.
Визуальное якорение: физическое действие ДО реплики. «The agent slams his hand on the table. [Agent, angrily]: "Where is the truth?"»
Аудио-детали: уникальный тон и эмоции для каждого персонажа. «[Agent, raspy, deep voice]: "Don't move." [Assistant, clear, fearful voice]: "I'm scared."»
Темпоральный контроль: связующие слова между репликами. «[Agent]: "Why?" Immediately, [Assistant]: "Because it's time."» Без связки модель может слить реплики.
Типичные ошибки
1. Местоимения вместо меток персонажей в диалогах
«He says...», «Then she replies...» — модель не знает, кто говорит, и сливает реплики или меняет голос между ними. Используй уникальные структурные метки `[Character A: description]` и `[Character B: description]` через весь промпт. Каждая реплика — с явной меткой персонажа.
2. Multi-shot без маркировки отдельных шотов
Если описать несколько сцен подряд без маркеров `Multi shot Prompt 1:`, `Multi shot Prompt 2:`, модель воспринимает это как один длинный шот и путается в переходах. Каждый шот — отдельный блок с собственным кадрированием, действием и хронометражом.
3. Диалоги без визуального якорения
Если сначала идёт реплика, а потом действие — «[Agent]: "Where is the truth?" The agent slams the table» — модель часто рассинхронизирует звук и движение. Правильно: физическое действие ДО реплики. Это даёт модели понятную аудио-визуальную привязку.
4. Диалоги без тональных дескрипторов
«[Agent]: "Don't move"» без тональной информации — голос будет нейтральным, как у TTS-движка. Добавляй характеристики голоса: «[Agent, raspy deep voice, threatening]: "Don't move"». Это раскрывает преимущество нативного аудио Kling 3.0 — управление эмоциями и тоном.
5. Описание сцены в I2V-промпте
Как и в других моделях Kling, в Image-to-Video модель уже видит изображение и сохраняет его макет, текст и идентичность. Описание внешности или окружения внутри I2V-промпта конфликтует с реальной картинкой. Длина 20–40 слов, описывать ТОЛЬКО движение и эволюцию сцены.
Примеры до/после
Пример 1
Было
женщина на кухне ночью
Стало
A dim kitchen late at night, warm tungsten light from overhead fixture casting long shadows. [Character A: Sarah, mid-30s woman in a worn flannel bathrobe, exhausted eyes, hair in a messy ponytail]. Sarah sets a ceramic plate down too hard on the granite counter. Sharp ceramic clink. She turns slowly from the sink, exhaustion evident in her posture. Camera holds steady medium shot at eye level, shallow depth of field with soft bokeh from the kitchen window behind her. Quiet ambient sound of a ticking wall clock, distant traffic muffled through the window.
Полная структура: scene setup + atmosphere, закреплённый персонаж в начале, визуальное якорение перед звуком, камера отдельно от субъекта, аудио-дизайн (clink, ticking clock, traffic).
Пример 2
Было
Multi-shot: «джокер танцует на лестнице»
Стало
Master Prompt: A theatrical figure begins his iconic dance descent down a long flight of concrete stairs in a moody urban setting at dusk, cinematic gritty atmosphere. Multi shot Prompt 1: A man in a vibrant red suit starts dancing at the top of the stairs, taking first exaggerated steps down, arms spreading wide, head tilting back in laughter, wide shot from below capturing the full silhouette against amber sky (Duration: 5 seconds). Multi shot Prompt 2: Continuing wild dance down concrete steps, spinning and kicking, coat tails flapping dramatically, reaching the bottom step with triumphant arms-raised pose, medium tracking shot following from the side with smooth dolly motion (Duration: 5 seconds).
Multi-shot в чистом виде: Master Prompt задаёт общий контекст, два маркированных шота с собственным кадрированием, действием и хронометражом.
Пример 3
Было
диалог между агентом и помощницей
Стало
A tense interrogation room with single overhead bulb casting harsh shadows. [Character A: Agent, black-suited man in his 40s with closely-cropped grey hair]. [Character B: Assistant, young woman in a beige sweater, nervous expression]. The agent slams his hand on the metal table, the impact echoes sharply. [Agent, raspy deep voice, cold]: "Where is the truth?" The assistant flinches, looks down at her trembling hands. Immediately, [Assistant, clear fearful voice]: "I told you everything I know." Camera holds tight medium shot, shallow depth of field, dim tungsten lighting with hard shadows.
Диалог по всем правилам: уникальные метки персонажей, визуальное действие перед каждой репликой, тональные дескрипторы для голоса, связующее слово «Immediately» между репликами.