Video

Sora: как писать промпты, которые модель понимает

OpenAI · Обновлено:

Sora — линейка video-моделей от OpenAI с клипами 4-20 секунд и поддержкой консистентных персонажей. Промпт работает как бриф для оператора-постановщика: стиль задаётся первым, дальше идёт субъект, действие, камера, освещение и звук. Английский даёт самые стабильные результаты, особенно для камерной и плёночной терминологии.

Что умеет Sora

Sora генерирует видеоклипы длительностью 4-20 секунд за один запуск. Базовое разрешение — 720×1280 или 1280×720, Pro-варианты добавляют до 1080×1920 и 1920×1080 для вертикальных и горизонтальных Full HD форматов. Поддерживается до двух персонажей через Characters API: короткое референсное видео (MP4, 2-4 секунды, 720p-1080p, 16:9 или 9:16) превращается в переиспользуемый персонаж с консистентной внешностью между генерациями.

Клип можно продлевать до 6 раз, суммарно до 120 секунд — модель использует полный исходный клип как контекст, а не только последний кадр. Image-to-Video позволяет загрузить фото или AI-арт как визуальный якорь первого кадра; промпт описывает, что происходит дальше. Видеоредактирование принимает точечные правки в существующий клип: «same shot, switch to 85mm» или «change the color of the monster to orange» — это инструмент для surgical fixes, не для полной переделки.

  • Клипы 4-20 секунд за один запуск
  • До 2 консистентных персонажей через Characters API
  • Продление до 120 секунд с полным клипом в контексте
  • Image-to-Video: фото как якорь первого кадра
  • Video Edit для точечных правок существующего клипа

Структура промпта

Оптимальный порядок: [Стиль/Эстетика] + [Субъект/Персонаж] + [Сцена/Среда] + [Действие/Движение] + [Камера: кадр + движение] + [Освещение/Цвет] + [Настроение] + [Звук/Диалоги].

Стиль идёт первым — это самый мощный рычаг управления в Sora. Одни и те же детали сцены выглядят радикально по-разному при «1970s romantic drama, shot on 35mm film», «16mm black-and-white documentary» или «90s documentary-style interview». Дальше — конкретный субъект (не «a person», а «a woman in a red coat»), физическое действие с глаголами и таймингом, обязательно крупность плана плюс движение камеры. Хотя бы одно указание на камеру нужно всегда.

Один промпт описывает один шот, не всю историю. Длинные сцены собирай из серии коротких клипов через продление в Sora или монтаж в посте — это даёт и стабильность, и контроль над раскадровкой.

Камера, освещение, цвет

Камеру задавай через крупность плана И движение: «Wide establishing shot, eye level» + «slow dolly-in». Стиль съёмки — «handheld», «Steadicam», «shoulder-mounted», «static tripod». Угол — «eye level», «low angle», «aerial», «Dutch angle». Глубина — «shallow depth of field», «deep focus», «rack focus».

Освещение описывай через источники, а не яркость: не «brightly lit», а «soft window light with warm lamp fill, cool rim from hallway». Цветовая палитра — 3-5 цветовых якорей через запятую: «amber, cream, walnut brown» или «teal and orange». Это критично для стабильности кадра при монтаже серии клипов. Конкретные параметры объективов («Anamorphic 2.0x», «Kodak Vision3 500T», «volumetric light») работают лучше абстрактного «cinematic look».

Звук и диалоги

Даже для тихих сцен указывай хотя бы один ритмический звук — «distant traffic hiss», «a crisp snap», «faint mechanical hum», «soft mechanical drone». Иначе модель додумает фоновый звук сама, и часто неудачно — самый частый артефакт это смех аудитории как в ситкоме. Диалоги выноси отдельным блоком с указанием персонажа и эмоции:

Dialogue: - Detective (low voice): "You're lying. I can hear it in your silence." - Suspect (tired): "Or maybe I'm just tired of talking."

При нескольких персонажах чётко указывай кто и что говорит — это нужно и для аудио, и для камерного фокуса модели. Для серии шотов с одним персонажем используй Characters API, чтобы внешность не «дрейфовала» между генерациями.

Типичные ошибки

  1. 1. Слишком короткий промпт без деталей

    «A cat playing with a ball» — модель будет додумывать всё: породу, освещение, ракурс, фон. Результат непредсказуем. Минимум для стабильности: конкретный субъект с деталями («tabby cat»), действие с глаголом («batting a red yarn ball»), среда («across hardwood floors»), камера и свет.

  2. 2. Размытое освещение

    «Bright» или «dark» не говорят модели, ОТКУДА свет. Указывай источники и направление: «soft window light from screen-left with warm tungsten fill from above, cool rim from hallway». Даже простое «golden hour, natural sunlight» работает лучше абстрактного «brightly lit».

  3. 3. Несколько сцен в одном промпте

    Один промпт = один шот. Описание «she leaves the cafe, drives to the airport, boards a plane» модель попытается уместить в один клип и сорвётся в морфинг. Разбивай историю на серию 4-8-секундных клипов и склеивай через продление или монтаж в посте.

  4. 4. Длительность или разрешение в тексте промпта

    «Make this 1080p and 12 seconds long» — модель эти параметры из текста не читает. Длительность и разрешение задаются только через API-параметры или UI. В тексте они становятся мусором и могут конфликтовать с настройками. Убирай из промпта.

  5. 5. Абстрактное «cinematic look» вместо параметров

    «Cinematic» сам по себе ничего не значит для модели. Заменяй конкретикой: «Anamorphic 2.0x lens, shallow DOF, volumetric light», «shot on Kodak Vision3 500T», «warm Kodak grade with halation». Конкретные параметры плёнки и объективов — самый сильный стилистический рычаг в Sora.

Примеры до/после

Пример 1

Было

a beautiful street at night

Стало

Cinematic neo-noir style, shot on 35mm film with natural grain and subtle halation. Wide-angle shot slowly tracking forward down a rain-soaked Tokyo street at 2am, wet asphalt, zebra crosswalk, neon signs reflecting in puddles. Camera: low angle, slow dolly-in from eye level, shallow depth of field. Lighting: cyan key from neon, warm spill from a ramen shop window, cool rim from the alley. Palette: teal, magenta, amber. Mood: cinematic, lonely, tense. Background Sound: distant traffic hiss, rain on pavement, faint izakaya chatter.

Стиль идёт первым, конкретные детали среды, явное движение камеры и сетап освещения, цветовая палитра как якорь, ритмический звуковой фон.

Пример 2

Было

person moves quickly

Стало

Handheld ENG camera style, 16mm documentary look with natural film grain. A cyclist in a yellow rain jacket pedals three times across a wet intersection, brakes hard, and stops just before a zebra crosswalk as a tram passes. Camera: medium shot at eye level, handheld with subtle micro-shake, follows the cyclist in a slow lateral track. Lighting: overcast natural daylight, soft and even, cool color temperature. Palette: slate grey, yellow, asphalt black. Mood: gritty, observational. Background Sound: tram bell, wet tyres on pavement, distant city hum.

Абстрактное «moves quickly» заменено на конкретное действие с глаголами и таймингом — модель знает, как именно двигается субъект и где останавливается.

Пример 3

Было

a product spinning

Стало

Commercial photography style, clean studio aesthetic. Smooth 360-degree rotating shot of matte-black wireless headphones on a white marble pedestal against a seamless white cyclorama. Camera: medium close-up, slow continuous orbit at eye level, shallow depth of field with smooth bokeh on the backdrop. Lighting: large softbox key from above, gentle rim light from behind, subtle gradient fill from screen-right. Palette: white, charcoal, brushed metal accents. Mood: premium, minimal, confident. Background Sound: a single subtle electronic chime at the start, then ambient room tone.

Продуктовый шот: конкретика материала, точное движение камеры (smooth orbit), сетап освещения с тремя источниками, минимальный звук как ритм.

Частые вопросы

Чем Sora отличается от Sora 2?
Sora — общий идентификатор для всей линейки моделей OpenAI; Sora 2 — конкретная актуальная версия с нативным звуком, Characters API и более точным следованием промпту. На уровне промптинга подходы совпадают: стиль первым, конкретный субъект, физическое действие, камера, свет, звук. Sora 2 строже относится к структуре и блочному формату Cinematography/Actions/Dialogue.
Сколько секунд может длиться один клип?
Один запуск — от 4 до 20 секунд. Дальше клип можно продлевать до 6 раз, суммарно до 120 секунд. При продлении модель использует полный исходный клип как контекст, а не последний кадр — это даёт более стабильное движение между склейками. Для нестабильных сцен 4-секундные отрезки работают надёжнее.
Можно ли писать промпты на русском?
Технически да, но английский даёт заметно более стабильные результаты — особенно для камерных терминов («wide establishing shot», «slow dolly-in»), плёночных форматов и стилистических референсов. Кинематографический словарь исторически тренируется лучше в английском. Промпт на английском, диалоги внутри клипа можно писать на любом языке.
Что такое Characters API и зачем он нужен?
Characters API позволяет загрузить короткое видео персонажа (MP4, 2-4 секунды, 720p-1080p, 16:9 или 9:16) и получить ID. Дальше в промптах указываешь имя и ID — модель воспроизводит того же персонажа в разных сценах с консистентной внешностью. Максимум 2 персонажа на одну генерацию; больше модель не вытягивает и срывается в морфинг.
Почему результат каждый раз разный при одинаковом промпте?
Это особенность Sora, а не баг — модель сэмплит из распределения, и идентичный промпт даёт вариативный результат между запусками. Не пытайся попасть перегенерацией: лучше уточняй промпт. Добавь конкретный объектив, цветовые якоря, посекундную раскладку — это сужает интерпретацию. Для серии шотов с одним персонажем используй Characters API.
Как избежать «студийного смеха аудитории» в фоне?
Это типичный артефакт, когда фоновый звук не описан явно — модель додумывает «laughter» в любую сцену, где есть несколько людей. Лечение: всегда явно прописывай Background Sound, даже для тихих сцен. Один ритмический якорь — «distant traffic hiss», «ticking wall clock», «faint mechanical hum» — убирает проблему.
Поддерживается ли Opten для Sora?
Да, расширение Opten распознаёт Sora на платформах OpenAI (ChatGPT, API) и оценивает промпты по структуре, описанной выше: стиль в начале, конкретный субъект, физическое действие, обязательная камера, явный звуковой фон. Одним кликом можно получить rewrite с правильной структурой и без длительности/разрешения в тексте промпта.

Похожие модели

Готов писать промпты для Sora (general) в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время