Sora 2: как писать промпты, которые модель понимает
OpenAI · Обновлено:
Sora 2 — video-модель от OpenAI с нативным звуком, поддержкой до двух персонажей через Characters API и клипами 4-20 секунд. Промпт работает как бриф для оператора-постановщика: стиль задаётся первым, дальше идёт субъект, действие, камера и звук. Длительность и разрешение задаются только через API-параметры, не текстом.
Что умеет Sora 2
Sora 2 генерирует клипы 4, 8, 12, 16 или 20 секунд в разрешениях 720×1280 или 1280×720 (Pro-версия добавляет 1024×1792, 1792×1024, 1080×1920, 1920×1080). Модель умеет нативный звук — диалоги, окружение, SFX и музыку. Через Characters API можно загрузить короткое видео персонажа (MP4, 2-4 секунды, 720p-1080p) и переиспользовать его между клипами; одновременно поддерживается до двух персонажей.
Уникальная фича — продление видео до 6 раз, суммарно до 120 секунд. При продлении модель использует полный оригинальный клип как контекст, а не последний кадр — это даёт стабильность движения между склейками. Для итерации часто проще собрать длинную сцену из двух склеенных четырёхсекундных клипов: модель надёжнее следует инструкциям в коротких отрезках.
- Клипы 4-20 секунд, нативный звук и диалоги
- До 2 персонажей через Characters API (MP4-референс)
- Продление до 120 секунд с полным клипом в контексте
- Image-to-video: входное фото как якорь первого кадра
- Video Edit для точечных правок существующего клипа
Структура промпта
Оптимальный порядок: [Стиль/Эстетика] + [Субъект/Персонаж] + [Сцена/Среда] + [Действие/Движение] + [Камера: кадр + движение] + [Освещение/Цвет] + [Настроение] + [Звук/Диалоги].
Главное правило — стиль идёт первым. Это самый мощный рычаг управления: одни и те же детали выглядят радикально по-разному при «Hollywood drama», «handheld smartphone clip» или «grainy vintage commercial». Дальше — конкретный субъект (не «a person», а «a woman in a red coat»), конкретное действие с глаголами («pedals three times, brakes, stops at crosswalk» вместо «moves quickly»), и обязательно крупность плана плюс движение камеры.
Промпт — описание одного шота, не всей истории. Длинную сцену собирай из серии коротких клипов через продление или монтаж в посте.
Шаблон с блоками Cinematography и Actions
Официальный шаблон Sora 2 разбивает промпт на блоки. Сверху — прозаическое описание сцены, персонажей, костюмов, декораций. Дальше:
Cinematography: Camera: medium close-up, slow push-in Lighting: warm key from overhead practical, cool spill from window Mood: gentle, whimsical, a touch of suspense
Actions: - The robot taps the bulb; sparks crackle. - It flinches, dropping the bulb. - A puff of steam escapes its chest.
Dialogue: - Robot: "Almost lost it... but I got it!"
Background Sound: Rain, ticking clock, soft mechanical hum.
Эта структура читается моделью как раскадровка. Для длинных клипов добавляй посекундную раскладку: «0.00-2.40 — Arrival Drift (32mm, slow dolly left)» — модель привязывает действия к таймкодам.
Звук, диалоги и палитра
Sora 2 генерирует аудио вместе с видео. Даже для тихих сцен указывай хотя бы один ритмический звук — «distant traffic hiss», «a crisp snap», «faint mechanical hum» — иначе модель додумает фон сама. Диалоги выноси отдельным блоком с указанием персонажа и эмоции: «Detective (low voice): "You're lying. I can hear it in your silence."».
Цветовая палитра — 3-5 цветовых якорей через запятую: «amber, cream, walnut brown» или «teal and orange». Это критично для стабильности кадров при монтаже серии клипов. Освещение описывай через источники, а не яркость: не «brightly lit», а «soft window light with warm lamp fill, cool rim from hallway». Конкретные параметры объективов («Anamorphic 2.0x, shallow DOF, volumetric light») работают лучше абстрактного «cinematic look».
Типичные ошибки
1. Длительность и разрешение в тексте промпта
«Make this an 8-second 1080p video» — модель эти параметры из текста не читает. Длительность (seconds), размер (size) и persona (characters) задаются только через API-параметры. В промпте они становятся мусором и могут конфликтовать с настройками. Убирай их из текста и выставляй через UI или API.
2. Размытое действие вместо конкретного глагола
«Person moves quickly» — модель не знает, как именно двигается субъект. Используй конкретные глаголы с таймингом: «sprinting», «tiptoeing», «gliding», «pedals three times, brakes, stops». Чем точнее глагол, тем меньше модель додумывает, тем стабильнее результат между генерациями.
3. Несколько сцен в одном промпте
Один промпт = один шот. Если описать «she leaves the cafe, walks to the car, drives away» — модель попытается уместить три действия в один клип и съедет в морфинг. Разбивай историю на серию 4-8-секундных клипов и склеивай через продление или монтаж. Это даёт и стабильность, и контроль.
4. Диалоги в кавычках без указания персонажа
«She says "hello there"» работает хуже, чем блочный диалог с явным персонажем и эмоцией: «Woman (warmly): "Hello there."». Для нескольких персонажей чётко указывай кто говорит. При двух персонажах используй Characters API, чтобы они не «дрейфовали» внешне между генерациями.
5. Абстрактное «cinematic look» вместо параметров
Слово «cinematic» само по себе не даёт модели направления — она интерпретирует его статистически. Заменяй конкретикой: «Anamorphic 2.0x lens, shallow DOF, volumetric light», «shot on Kodak Vision3 500T», «warm Kodak grade with subtle halation». Конкретные параметры объективов и плёнки — самый сильный стилистический рычаг.
Примеры до/после
Пример 1
Было
a person walking down a street at night
Стало
Cinematic neo-noir style, shot on 35mm film with subtle halation and natural grain. Wide-angle shot slowly pushing forward down a rain-soaked Tokyo street at 2am, neon signs reflecting in puddles. A woman in a black trench coat walks past a ramen shop, hands in pockets, breath visible in the cold air. Camera: low angle, slow dolly-in from eye level. Lighting: cyan key from neon, warm spill from shop windows. Palette: teal, magenta, amber. Mood: cinematic, lonely, tense. Background Sound: distant traffic hiss, rain on pavement, faint izakaya chatter.
Стиль идёт первым, конкретный субъект с одеждой, действие с глаголами, явные источники света и палитра, ритмический звуковой фон.
Пример 2
Было
an old man tells a story
Стало
In a 90s documentary-style interview, an elderly Swedish fisherman sits in a dim study lined with maritime maps. He wears a wool sweater and has a weathered face with deep wrinkles. Cinematography: Camera: medium close-up, static on tripod with slight handheld micro-shake Lighting: soft window light from screen-left, warm practical lamp fill Mood: nostalgic, intimate Actions: - He looks down at his hands, then up to camera. - A faint smile crosses his face. Dialogue: - Fisherman (quietly): "I still remember when I was young." Background Sound: distant foghorn, ticking wall clock, faint creak of the chair.
Блочная структура Cinematography + Actions + Dialogue + Background Sound — модель читает это как раскадровку, диалог через двоеточие, не кавычки.
Пример 3
Было
a product video of headphones
Стало
Commercial photography style, clean studio aesthetic with soft shadows. Smooth 360-degree rotating shot of matte-black wireless headphones on a white marble pedestal against a seamless white cyclorama. Subtle reflection on the pedestal surface. Camera: medium close-up, slow orbit at eye level, shallow depth of field. Lighting: large softbox key from above, gentle rim light from behind, gradient fill. Palette: white, charcoal, brushed metal accents. Mood: premium, minimal, confident. Background Sound: a single subtle electronic chime at the start, then ambient room tone.
Продуктовый шот не требует драмы, но требует конкретики: тип материала, точное движение камеры, сетап освещения, минимальный, но осмысленный звук.