Sora: как писать промпты, которые модель понимает
OpenAI · Обновлено:
Sora — линейка video-моделей от OpenAI с клипами 4-20 секунд и поддержкой консистентных персонажей. Промпт работает как бриф для оператора-постановщика: стиль задаётся первым, дальше идёт субъект, действие, камера, освещение и звук. Английский даёт самые стабильные результаты, особенно для камерной и плёночной терминологии.
Что умеет Sora
Sora генерирует видеоклипы длительностью 4-20 секунд за один запуск. Базовое разрешение — 720×1280 или 1280×720, Pro-варианты добавляют до 1080×1920 и 1920×1080 для вертикальных и горизонтальных Full HD форматов. Поддерживается до двух персонажей через Characters API: короткое референсное видео (MP4, 2-4 секунды, 720p-1080p, 16:9 или 9:16) превращается в переиспользуемый персонаж с консистентной внешностью между генерациями.
Клип можно продлевать до 6 раз, суммарно до 120 секунд — модель использует полный исходный клип как контекст, а не только последний кадр. Image-to-Video позволяет загрузить фото или AI-арт как визуальный якорь первого кадра; промпт описывает, что происходит дальше. Видеоредактирование принимает точечные правки в существующий клип: «same shot, switch to 85mm» или «change the color of the monster to orange» — это инструмент для surgical fixes, не для полной переделки.
- Клипы 4-20 секунд за один запуск
- До 2 консистентных персонажей через Characters API
- Продление до 120 секунд с полным клипом в контексте
- Image-to-Video: фото как якорь первого кадра
- Video Edit для точечных правок существующего клипа
Структура промпта
Оптимальный порядок: [Стиль/Эстетика] + [Субъект/Персонаж] + [Сцена/Среда] + [Действие/Движение] + [Камера: кадр + движение] + [Освещение/Цвет] + [Настроение] + [Звук/Диалоги].
Стиль идёт первым — это самый мощный рычаг управления в Sora. Одни и те же детали сцены выглядят радикально по-разному при «1970s romantic drama, shot on 35mm film», «16mm black-and-white documentary» или «90s documentary-style interview». Дальше — конкретный субъект (не «a person», а «a woman in a red coat»), физическое действие с глаголами и таймингом, обязательно крупность плана плюс движение камеры. Хотя бы одно указание на камеру нужно всегда.
Один промпт описывает один шот, не всю историю. Длинные сцены собирай из серии коротких клипов через продление в Sora или монтаж в посте — это даёт и стабильность, и контроль над раскадровкой.
Камера, освещение, цвет
Камеру задавай через крупность плана И движение: «Wide establishing shot, eye level» + «slow dolly-in». Стиль съёмки — «handheld», «Steadicam», «shoulder-mounted», «static tripod». Угол — «eye level», «low angle», «aerial», «Dutch angle». Глубина — «shallow depth of field», «deep focus», «rack focus».
Освещение описывай через источники, а не яркость: не «brightly lit», а «soft window light with warm lamp fill, cool rim from hallway». Цветовая палитра — 3-5 цветовых якорей через запятую: «amber, cream, walnut brown» или «teal and orange». Это критично для стабильности кадра при монтаже серии клипов. Конкретные параметры объективов («Anamorphic 2.0x», «Kodak Vision3 500T», «volumetric light») работают лучше абстрактного «cinematic look».
Звук и диалоги
Даже для тихих сцен указывай хотя бы один ритмический звук — «distant traffic hiss», «a crisp snap», «faint mechanical hum», «soft mechanical drone». Иначе модель додумает фоновый звук сама, и часто неудачно — самый частый артефакт это смех аудитории как в ситкоме. Диалоги выноси отдельным блоком с указанием персонажа и эмоции:
Dialogue: - Detective (low voice): "You're lying. I can hear it in your silence." - Suspect (tired): "Or maybe I'm just tired of talking."
При нескольких персонажах чётко указывай кто и что говорит — это нужно и для аудио, и для камерного фокуса модели. Для серии шотов с одним персонажем используй Characters API, чтобы внешность не «дрейфовала» между генерациями.
Типичные ошибки
1. Слишком короткий промпт без деталей
«A cat playing with a ball» — модель будет додумывать всё: породу, освещение, ракурс, фон. Результат непредсказуем. Минимум для стабильности: конкретный субъект с деталями («tabby cat»), действие с глаголом («batting a red yarn ball»), среда («across hardwood floors»), камера и свет.
2. Размытое освещение
«Bright» или «dark» не говорят модели, ОТКУДА свет. Указывай источники и направление: «soft window light from screen-left with warm tungsten fill from above, cool rim from hallway». Даже простое «golden hour, natural sunlight» работает лучше абстрактного «brightly lit».
3. Несколько сцен в одном промпте
Один промпт = один шот. Описание «she leaves the cafe, drives to the airport, boards a plane» модель попытается уместить в один клип и сорвётся в морфинг. Разбивай историю на серию 4-8-секундных клипов и склеивай через продление или монтаж в посте.
4. Длительность или разрешение в тексте промпта
«Make this 1080p and 12 seconds long» — модель эти параметры из текста не читает. Длительность и разрешение задаются только через API-параметры или UI. В тексте они становятся мусором и могут конфликтовать с настройками. Убирай из промпта.
5. Абстрактное «cinematic look» вместо параметров
«Cinematic» сам по себе ничего не значит для модели. Заменяй конкретикой: «Anamorphic 2.0x lens, shallow DOF, volumetric light», «shot on Kodak Vision3 500T», «warm Kodak grade with halation». Конкретные параметры плёнки и объективов — самый сильный стилистический рычаг в Sora.
Примеры до/после
Пример 1
Было
a beautiful street at night
Стало
Cinematic neo-noir style, shot on 35mm film with natural grain and subtle halation. Wide-angle shot slowly tracking forward down a rain-soaked Tokyo street at 2am, wet asphalt, zebra crosswalk, neon signs reflecting in puddles. Camera: low angle, slow dolly-in from eye level, shallow depth of field. Lighting: cyan key from neon, warm spill from a ramen shop window, cool rim from the alley. Palette: teal, magenta, amber. Mood: cinematic, lonely, tense. Background Sound: distant traffic hiss, rain on pavement, faint izakaya chatter.
Стиль идёт первым, конкретные детали среды, явное движение камеры и сетап освещения, цветовая палитра как якорь, ритмический звуковой фон.
Пример 2
Было
person moves quickly
Стало
Handheld ENG camera style, 16mm documentary look with natural film grain. A cyclist in a yellow rain jacket pedals three times across a wet intersection, brakes hard, and stops just before a zebra crosswalk as a tram passes. Camera: medium shot at eye level, handheld with subtle micro-shake, follows the cyclist in a slow lateral track. Lighting: overcast natural daylight, soft and even, cool color temperature. Palette: slate grey, yellow, asphalt black. Mood: gritty, observational. Background Sound: tram bell, wet tyres on pavement, distant city hum.
Абстрактное «moves quickly» заменено на конкретное действие с глаголами и таймингом — модель знает, как именно двигается субъект и где останавливается.
Пример 3
Было
a product spinning
Стало
Commercial photography style, clean studio aesthetic. Smooth 360-degree rotating shot of matte-black wireless headphones on a white marble pedestal against a seamless white cyclorama. Camera: medium close-up, slow continuous orbit at eye level, shallow depth of field with smooth bokeh on the backdrop. Lighting: large softbox key from above, gentle rim light from behind, subtle gradient fill from screen-right. Palette: white, charcoal, brushed metal accents. Mood: premium, minimal, confident. Background Sound: a single subtle electronic chime at the start, then ambient room tone.
Продуктовый шот: конкретика материала, точное движение камеры (smooth orbit), сетап освещения с тремя источниками, минимальный звук как ритм.