OmniHuman 1.5: как писать промпты, которые модель понимает
ByteDance · Обновлено:
OmniHuman 1.5 — специализированная видеомодель ByteDance для анимации людей по схеме Image + Audio → Video. 1024×1024 при 30fps, до 30 секунд через API. Главный драйвер — аудио (lip-sync и body language), текстовый промпт — дополнение для сцены и камеры. Английский для промптов; аудио — на любом языке.
Что умеет OmniHuman
OmniHuman — не универсальный видеогенератор. Это узко-специализированная модель для оживления одного изображения человека с помощью аудио. Архитектура двухсистемная: Diffusion Transformer (System 1) для визуала + Multimodal LLM (System 2) для понимания контекста. Обучена на 18 700 часов видео человеческого движения; context window 50 000 токенов.
Три входа работают вместе: изображение (обязательно — портрет, полуфигура или полная фигура), аудио (для lip-sync и языка тела), текстовый промпт (дополнение для сцены, камеры, действий, эмоций). Качество = согласованность всех трёх входов. Поддерживает реальных людей, животных, стилизованных персонажей и 3D-модели.
- Image + Audio → Video, специализация — анимация людей
- 1024×1024 при 30fps, до 30 секунд через API
- Audio-driven lip-sync с эмоциональным языком тела
- Subjects: реальные люди, животные, стилизованные персонажи, 3D
- Multi-character сцены с назначением спикеров
Структура промпта
Текстовый промпт = дополнение к аудио. Аудио задаёт темп, эмоцию, lip-sync; промпт описывает сцену, камеру, действия. Не пиши длинные описания внешности — она задана изображением.
Формула: [Character description + pose] + [Action/movement] + [Camera] + [Emotional tone].
Пример: «A male DJ performing live on stage, wearing headphones and mixing music on a DJ controller, focused expression, subtle head movement following the beat.» Короткие естественные сценарии работают лучше, чем списки ключевых слов. Оптимальная длина 15-40 слов. Главное — согласованность с аудио и изображением, а не подробность.
Согласованность трёх входов — главное правило
Качество выхода = согласованность image + audio + prompt. Это правило ломает большинство неудачных генераций.
Рассогласованный пример: на изображении — портрет бизнесмена в офисе; аудио — рок-музыка; промпт — «DJ performing on stage». Модель не сможет разрешить конфликт и даст странный результат. Согласованный пример: изображение — DJ в наушниках; аудио — электронная музыка; промпт — «male DJ performing live on stage, focused expression, subtle head movement following the beat». Все три входа говорят об одном.
Если просишь lip-sync — аудио должно содержать речь или вокал. Если просишь танец под бит — аудио должно содержать ритмичную музыку. Если хочешь спокойный talking head — аудио должно быть подкастом, а не рок-треком.
Talking head и презентации
Основной production-сценарий OmniHuman — анимация спикера из одного фото. Подкасты, видеоуроки, корпоративные ролики, объясняющие видео — всё, что требует lip-sync без съёмки. Сэкономишь день съёмочного процесса: одно фото, одна звуковая дорожка → готовый клип.
Для talking head промпт минимальный: «A speaker addressing the camera with a calm professional tone, slight natural head movement, occasional hand gestures off-frame». Аудио задаёт всё остальное — паузы, интонацию, эмоцию. Камеру задавай статичной или с лёгким zoom in — это совпадает с эстетикой talking head, не отвлекает от лица.
Типичные ошибки
1. Использование как text-to-video
OmniHuman ВСЕГДА требует изображение человека. Это не general video generator. Если ты пишешь только текстовый промпт без загрузки референса, генерация невозможна. Для T2V используй Veo, Sora, Kling или Hailuo. OmniHuman — узкоспециализированная модель для анимации одного фото, не альтернатива универсальным видеомоделям.
2. Отсутствие аудио
Главная фича OmniHuman — audio-driven lip-sync с эмоциональным языком тела. Без аудио модель не сможет синхронизировать губы, не получит сигнала о темпе и эмоции. Результат резко деградирует: статичный портрет или хаотичная мимика. Для каждой генерации нужно аудио — даже если это просто эмбиентный фон.
3. Рассогласование входов
DJ в промпте + классическая музыка в аудио + портрет бизнесмена на референсе = конфликт, который модель не разрешит. Все три входа должны говорить об одном. Перед генерацией проверь: совпадает ли субъект на изображении с описанием в промпте; совпадает ли эмоциональный тон аудио с действием в промпте; совпадает ли визуальная сцена с акустической средой.
4. Описание внешности субъекта
Внешность задана входным изображением. Длинное описание «handsome young man with blonde hair, blue eyes, wearing a black suit» — пустые токены до описания действия. Пиши только: что персонаж делает, как движется камера, какой эмоциональный тон, какая сцена вокруг. 15-40 слов более чем достаточно.
5. Ожидание высокого разрешения
OmniHuman — 1024×1024 при 30fps. Это не 4K и не широкий 1080P. Для production-видео в YouTube-разрешении нужен пост-апскейл (Topaz, отдельный super-resolution pass). Для социального контента (Reels, Shorts, TikTok вертикально) 1024×1024 нормально с лёгким кропом. Для презентаций и подкастов — тоже окей. Для broadcast-кинематографа — недостаточно.
Примеры до/после
Пример 1
Было
анимируй моего бизнес-партнёра для презентации
Стало
A professional speaker addressing the camera with a calm confident tone, slight natural head movements, occasional subtle hand gestures appearing at the bottom of frame. Static camera, mid-shot framing, neutral business office background visible behind. Focused friendly expression, executive presentation aesthetic.
Внешность не описана — она на референсе. Указано: tone (calm confident), движение (slight natural head), камера (static mid-shot), эмоциональный тон (focused friendly). Длина в целевом диапазоне 15-40 слов.
Пример 2
Было
DJ играет музыку
Стало
A male DJ performing live on a club stage, wearing headphones, hands operating a DJ controller, subtle head and shoulder movement following the beat of the audio. Tracking shot slowly orbiting from left to right. Energetic focused expression, club lighting atmosphere with magenta and blue accents.
Согласовано с предполагаемым аудио (electronic beat). Описано взаимодействие с инструментом (operating DJ controller), движение в такт (following the beat), камера (tracking orbit), атмосфера (club lighting).
Пример 3
Было
два человека разговаривают в подкасте
Стало
Two people in a warmly-lit podcast studio. The man on the left is speaking (lip-sync to audio), occasional emphatic hand gestures, engaged expression. The woman on the right is listening attentively, slight nods and subtle micro-reactions on her face. Static two-shot framing, soft warm key light, intimate atmosphere.
Multi-character: явно указан спикер (man on the left, lip-sync to audio) и слушатель (woman on the right, micro-reactions). Без этого OmniHuman не знает, чьи губы синхронизировать.