Veed Fabric: как писать промпты, которые модель понимает
VEED · Обновлено:
Veed Fabric 1.0 — специализированная lip-sync модель, а не генератор видео общего назначения. На вход идёт изображение и аудио (или речевой скрипт для TTS), на выход — анимированный talking head с движениями губ, головы и рук. Поддерживается 30+ языков, до 5 минут через API. Промпт в традиционном смысле не используется.
Как работает Fabric и чем он отличается
Fabric — это не text-to-video. Это lip-sync / talking head система на архитектуре Diffusion Transformer (DiT), оживляющая статичное изображение под аудио. На вход подаётся пара: одно изображение и один аудиофайл. Модель строит lip-sync, добавляет естественные движения головы, тела и жесты рук, привязанные к ритму речи.
Изображение может быть в любом стиле: фото, иллюстрация, аниме, 3D-рендер, глиняный маскот, бренд-персонаж. Это ключевое отличие от классических avatar-генераторов — Fabric не требует фотореалистичного лица. Аудио — речь или музыка. Разрешения 480p и 720p, FPS 25, форматы 16:9, 9:16 и 1:1. Скорость: Fabric 1.0 Fast примерно в 2.5 раза быстрее Standard, версия 480p отрабатывает 10 секунд за ~1.5 минуты.
- Image + Audio → видео с lip-sync (не T2V)
- Любой стиль входного изображения — фото, иллюстрация, аниме, 3D
- 30+ языков, до 5 минут через API
- Разрешения 480p и 720p, FPS 25, форматы 16:9 / 9:16 / 1:1
- Fast-вариант ~2.5× быстрее Standard
Два режима работы
Audio-режим: ты сам приносишь аудиофайл (mp3/wav/m4a/aac/ogg, до 10 МБ). Текстового промпта здесь нет вообще — модель просто синхронизирует губы и движения под звук. Качество напрямую зависит от пары изображение + аудио: чистая запись без фонового шума, фронтальное изображение с видимым лицом и ртом, без экстремальных ракурсов и сильных бликов на лице.
TTS-режим (через VEED): аудио генерируется из речевого скрипта движком ElevenLabs V3. Здесь «промпт» — это и есть скрипт: текст, который произносится в кадре, плюс встроенные теги в квадратных скобках для контроля эмоций, темпа, акцента и звуковых эффектов. Скрипт может быть на любом из 30+ поддерживаемых языков, включая русский, английский, китайский, японский, испанский и арабский.
Fabric Emotions: inline теги в скрипте
В TTS-режиме в текст скрипта встраиваются теги [tag] для эмоциональной экспрессии. Это не разметка форматирования, а режиссёрские указания для движка озвучки:
Эмоции: [excited], [happy], [sad], [angry], [curious], [nervous], [confident]. Реакции: [laughs], [sighs], [gasps], [clears throat]. Громкость: [whispers], [shouting]. Темп: [pause], [long pause], [breathes], [rushed], [drawn out]. Звуковые эффекты: [applause], [gunshot], [door creaks]. Акцент: [American accent], [British accent].
Правило одно: не перегружать тегами. Один тег на 1-2 предложения, распределять постепенно для естественного звучания. Тег перед каждым словом сломает интонацию — модель начнёт каждое слово произносить отдельно, с провалами, рывками и неестественными паузами.
Требования к входному изображению
Входное изображение задаёт всё визуальное качество итогового клипа. Базовые правила: фронтальное лицо или близко к фронтальному, без сильных Dutch-углов и профилей под 90 градусов. Лицо хорошо освещено и хорошо видно — без глубоких теней на одной половине, без сильных бликов от очков. Никаких окклюзий (рук перед лицом, медицинской маски, очков с зеркальными бликами на глазах) — модель просто не вытянет lip-sync, если рта не видно.
Форматы — jpg, jpeg, png, webp, gif, avif; размер до 10 МБ. Стиль не критичен: Fabric одинаково хорошо оживляет фото, иллюстрации в стиле аниме, 3D-рендеры пластилиновых персонажей, корпоративных маскотов и бренд-аватаров. Но в любом случае нужно одно чёткое лицо в кадре — не толпа, не два персонажа одновременно, не профиль без видимого рта.
Типичные ошибки
1. Описание сцены вместо скрипта
Fabric — не T2V. Промпт типа «a man in a forest at sunset, walking and explaining the product» модель проигнорирует: она не генерирует ни лес, ни закат, ни ходьбу. Вместо описания сцены давай готовое изображение (фон + лицо) и речевой скрипт с тегами. Сцену рисует другой инструмент, Fabric только оживляет лицо.
2. Перегрузка эмоциональными тегами
[excited] Hello [happy] everyone [laughs] today [confident] I want — модель сорвётся в рывки, паузы и неестественные переходы. Один тег на 1-2 предложения, не на каждое слово. Реакции [laughs], [sighs] ставь между фразами, не внутри. Эмоции работают как режиссёрские указания, а не как разметка каждой словоформы.
3. Грязное аудио или сильный фоновый шум
В Audio-режиме качество lip-sync напрямую зависит от чистоты звука. Сильный фоновый шум, эхо, музыка поверх речи путают модель — губы начинают «дрейфовать», синхронизация ломается. Записывай речь отдельно, фоновую музыку добавляй на монтаже после генерации, не в исходном аудиофайле.
4. Экстремальные ракурсы на входном изображении
Сильный профиль, Dutch-угол, лицо в окклюзии (за рукой, под маской, с бликами на очках) — модель не вытянет lip-sync. Используй фронтальное или близкое к фронтальному изображение с хорошо видимым ртом и равномерным освещением. Анимация стиля не критична, ракурс — критичен.
5. Ожидание камерных движений или экшна
Fabric не делает dolly, push-in, tracking shot — модель не двигает камеру и не меняет план. Если в брифе нужны кинематографические движения и действия персонажа в среде, это задача для Sora 2, Veo 3.1 или Kling. Fabric закрывает другой кейс: фиксированный кадр, оживший лицом и речью.
Примеры до/после
Пример 1
Было
person talking about a product
Стало
[TTS script for Veed Fabric, paired with a frontal product-shot image of a brand mascot] [confident] Hey there! I'm Otto, and today I'm showing you something special. [pause] Our new wireless earbuds give you twelve hours of battery on a single charge. [excited] Twelve full hours — that's almost a whole workday! [pause] [drawn out] No more low-battery anxiety. Tap the link below to grab yours.
Это речевой скрипт для TTS-режима, не описание сцены. Эмоциональные теги [confident], [excited], [drawn out] расставлены через паузы, не на каждом слове.
Пример 2
Было
a brand mascot says hello to viewers
Стало
[TTS script paired with a frontal illustration of the brand mascot] [happy] Hello, friends! [laughs] It's so good to see you again. [pause] I've been waiting all week to share this with you. [curious] Have you ever wondered what makes our community special? [pause] [confident] Stick around — I'll show you in the next sixty seconds.
Скрипт короткий, теги распределены: одна эмоция → одна-две фразы → пауза. Реакции типа [laughs] делают talking head живым.
Пример 3
Было
explain something in two languages
Стало
[TTS script for Veed Fabric, paired with a frontal image of an animated instructor — illustration style] [British accent] [confident] Welcome back to the channel. Today we're tackling something most beginners get wrong. [pause] [curious] What if I told you the trick is in the timing, not the tools? [drawn out] Let me show you. [pause] In the next clip I'll walk through it step by step.
Акцент задаётся тегом [British accent] в начале и держится дальше. Скрипт продуман под ~15 секунд произнесения — не пытается уместить целую лекцию.