Video

OmniHuman 1.5: как писать промпты, которые модель понимает

ByteDance · Обновлено:

OmniHuman 1.5 — специализированная видеомодель ByteDance для анимации людей по схеме Image + Audio → Video. 1024×1024 при 30fps, до 30 секунд через API. Главный драйвер — аудио (lip-sync и body language), текстовый промпт — дополнение для сцены и камеры. Английский для промптов; аудио — на любом языке.

Что умеет OmniHuman

OmniHuman — не универсальный видеогенератор. Это узко-специализированная модель для оживления одного изображения человека с помощью аудио. Архитектура двухсистемная: Diffusion Transformer (System 1) для визуала + Multimodal LLM (System 2) для понимания контекста. Обучена на 18 700 часов видео человеческого движения; context window 50 000 токенов.

Три входа работают вместе: изображение (обязательно — портрет, полуфигура или полная фигура), аудио (для lip-sync и языка тела), текстовый промпт (дополнение для сцены, камеры, действий, эмоций). Качество = согласованность всех трёх входов. Поддерживает реальных людей, животных, стилизованных персонажей и 3D-модели.

  • Image + Audio → Video, специализация — анимация людей
  • 1024×1024 при 30fps, до 30 секунд через API
  • Audio-driven lip-sync с эмоциональным языком тела
  • Subjects: реальные люди, животные, стилизованные персонажи, 3D
  • Multi-character сцены с назначением спикеров

Структура промпта

Текстовый промпт = дополнение к аудио. Аудио задаёт темп, эмоцию, lip-sync; промпт описывает сцену, камеру, действия. Не пиши длинные описания внешности — она задана изображением.

Формула: [Character description + pose] + [Action/movement] + [Camera] + [Emotional tone].

Пример: «A male DJ performing live on stage, wearing headphones and mixing music on a DJ controller, focused expression, subtle head movement following the beat.» Короткие естественные сценарии работают лучше, чем списки ключевых слов. Оптимальная длина 15-40 слов. Главное — согласованность с аудио и изображением, а не подробность.

Согласованность трёх входов — главное правило

Качество выхода = согласованность image + audio + prompt. Это правило ломает большинство неудачных генераций.

Рассогласованный пример: на изображении — портрет бизнесмена в офисе; аудио — рок-музыка; промпт — «DJ performing on stage». Модель не сможет разрешить конфликт и даст странный результат. Согласованный пример: изображение — DJ в наушниках; аудио — электронная музыка; промпт — «male DJ performing live on stage, focused expression, subtle head movement following the beat». Все три входа говорят об одном.

Если просишь lip-sync — аудио должно содержать речь или вокал. Если просишь танец под бит — аудио должно содержать ритмичную музыку. Если хочешь спокойный talking head — аудио должно быть подкастом, а не рок-треком.

Talking head и презентации

Основной production-сценарий OmniHuman — анимация спикера из одного фото. Подкасты, видеоуроки, корпоративные ролики, объясняющие видео — всё, что требует lip-sync без съёмки. Сэкономишь день съёмочного процесса: одно фото, одна звуковая дорожка → готовый клип.

Для talking head промпт минимальный: «A speaker addressing the camera with a calm professional tone, slight natural head movement, occasional hand gestures off-frame». Аудио задаёт всё остальное — паузы, интонацию, эмоцию. Камеру задавай статичной или с лёгким zoom in — это совпадает с эстетикой talking head, не отвлекает от лица.

Типичные ошибки

  1. 1. Использование как text-to-video

    OmniHuman ВСЕГДА требует изображение человека. Это не general video generator. Если ты пишешь только текстовый промпт без загрузки референса, генерация невозможна. Для T2V используй Veo, Sora, Kling или Hailuo. OmniHuman — узкоспециализированная модель для анимации одного фото, не альтернатива универсальным видеомоделям.

  2. 2. Отсутствие аудио

    Главная фича OmniHuman — audio-driven lip-sync с эмоциональным языком тела. Без аудио модель не сможет синхронизировать губы, не получит сигнала о темпе и эмоции. Результат резко деградирует: статичный портрет или хаотичная мимика. Для каждой генерации нужно аудио — даже если это просто эмбиентный фон.

  3. 3. Рассогласование входов

    DJ в промпте + классическая музыка в аудио + портрет бизнесмена на референсе = конфликт, который модель не разрешит. Все три входа должны говорить об одном. Перед генерацией проверь: совпадает ли субъект на изображении с описанием в промпте; совпадает ли эмоциональный тон аудио с действием в промпте; совпадает ли визуальная сцена с акустической средой.

  4. 4. Описание внешности субъекта

    Внешность задана входным изображением. Длинное описание «handsome young man with blonde hair, blue eyes, wearing a black suit» — пустые токены до описания действия. Пиши только: что персонаж делает, как движется камера, какой эмоциональный тон, какая сцена вокруг. 15-40 слов более чем достаточно.

  5. 5. Ожидание высокого разрешения

    OmniHuman — 1024×1024 при 30fps. Это не 4K и не широкий 1080P. Для production-видео в YouTube-разрешении нужен пост-апскейл (Topaz, отдельный super-resolution pass). Для социального контента (Reels, Shorts, TikTok вертикально) 1024×1024 нормально с лёгким кропом. Для презентаций и подкастов — тоже окей. Для broadcast-кинематографа — недостаточно.

Примеры до/после

Пример 1

Было

анимируй моего бизнес-партнёра для презентации

Стало

A professional speaker addressing the camera with a calm confident tone, slight natural head movements, occasional subtle hand gestures appearing at the bottom of frame. Static camera, mid-shot framing, neutral business office background visible behind. Focused friendly expression, executive presentation aesthetic.

Внешность не описана — она на референсе. Указано: tone (calm confident), движение (slight natural head), камера (static mid-shot), эмоциональный тон (focused friendly). Длина в целевом диапазоне 15-40 слов.

Пример 2

Было

DJ играет музыку

Стало

A male DJ performing live on a club stage, wearing headphones, hands operating a DJ controller, subtle head and shoulder movement following the beat of the audio. Tracking shot slowly orbiting from left to right. Energetic focused expression, club lighting atmosphere with magenta and blue accents.

Согласовано с предполагаемым аудио (electronic beat). Описано взаимодействие с инструментом (operating DJ controller), движение в такт (following the beat), камера (tracking orbit), атмосфера (club lighting).

Пример 3

Было

два человека разговаривают в подкасте

Стало

Two people in a warmly-lit podcast studio. The man on the left is speaking (lip-sync to audio), occasional emphatic hand gestures, engaged expression. The woman on the right is listening attentively, slight nods and subtle micro-reactions on her face. Static two-shot framing, soft warm key light, intimate atmosphere.

Multi-character: явно указан спикер (man on the left, lip-sync to audio) и слушатель (woman on the right, micro-reactions). Без этого OmniHuman не знает, чьи губы синхронизировать.

Частые вопросы

Чем OmniHuman отличается от Veo или Sora?
Veo и Sora — универсальные видеомодели для генерации любых сцен по тексту (T2V) или изображению (I2V). OmniHuman — узкоспециализированная модель ТОЛЬКО для анимации людей по схеме Image + Audio → Video. Главная фича — audio-driven lip-sync с эмоциональным языком тела. Это не «лучше или хуже Veo», это другой класс инструмента для конкретной задачи: оживление одного портрета с аудио.
Можно ли использовать OmniHuman без аудио?
Технически можно, но не рекомендуется. Audio-driven lip-sync — главная фича модели; без аудио OmniHuman теряет основной сигнал о темпе, эмоции и языке тела. Результат деградирует до статичного портрета или хаотичной мимики. Если аудио речи нет — используй хотя бы эмбиентный фон или музыкальный трек, который задаст ритм движений. Для тишины OmniHuman не предназначен.
Подходит ли модель для генерации диалогов между двумя людьми?
Только частично. OmniHuman поддерживает multi-character сцены с одним спикером и фоновыми реакциями других персонажей — это работает. Но настоящий диалог (две очереди говорения) за один проход не получится: модель синхронизирует lip-sync с одной аудиодорожкой. Решение — два прохода с разными аудио и последующим монтажом, или предварительный монтаж аудио с явной маркировкой спикеров.
Какие типы субъектов поддерживаются?
Реальные люди (главный сценарий), животные (анимация говорящих кошек, собак — работает удивительно хорошо), стилизованные / анимированные персонажи (cartoon, anime), 3D-модели и аватары. Главное условие — на референсе должен быть один субъект как «main character». Для multi-character сцены с одним спикером и фоновыми реакциями — тоже работает, но с явным назначением.
Какая длительность видео доступна?
Через API — до 30 секунд. Research-версия модели поддерживает более минуты, но эта версия не доступна публично. 30 секунд — достаточно для talking head презентации, короткого подкаста, музыкального клипа, продуктового ролика. Для длинных видео — генерируй несколько 30-секундных сегментов и склеивай при монтаже. Для коротких социальных клипов (Reels, Shorts) лимит несущественен.
Какая длина промпта оптимальна?
15-40 слов. Короткий промпт — это норма для OmniHuman, а не недостаток. Текстовый промпт дополняет аудио, не заменяет его. Описание внешности не нужно (она на изображении), описание эмоциональной арки не нужно (она в аудио). Достаточно: что персонаж делает в кадре, какая камера, какой эмоциональный тон, какая сцена вокруг.
Поддерживается ли Opten для OmniHuman 1.5?
Да, расширение Opten автоматически распознаёт ByteDance OmniHuman и оценивает промпты по структуре выше: проверяет наличие входного изображения, согласованность image + audio + prompt, отсутствие описания внешности (она на референсе), фокус на действии и камере, оптимальную длину 15-40 слов. Для multi-character — проверяет явное назначение спикеров. Одним кликом получаешь rewrite в правильной формуле.

Похожие модели

Готов писать промпты для OmniHuman 1.5 в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время