Video

Veed Fabric: как писать промпты, которые модель понимает

VEED · Обновлено:

Veed Fabric 1.0 — специализированная lip-sync модель, а не генератор видео общего назначения. На вход идёт изображение и аудио (или речевой скрипт для TTS), на выход — анимированный talking head с движениями губ, головы и рук. Поддерживается 30+ языков, до 5 минут через API. Промпт в традиционном смысле не используется.

Как работает Fabric и чем он отличается

Fabric — это не text-to-video. Это lip-sync / talking head система на архитектуре Diffusion Transformer (DiT), оживляющая статичное изображение под аудио. На вход подаётся пара: одно изображение и один аудиофайл. Модель строит lip-sync, добавляет естественные движения головы, тела и жесты рук, привязанные к ритму речи.

Изображение может быть в любом стиле: фото, иллюстрация, аниме, 3D-рендер, глиняный маскот, бренд-персонаж. Это ключевое отличие от классических avatar-генераторов — Fabric не требует фотореалистичного лица. Аудио — речь или музыка. Разрешения 480p и 720p, FPS 25, форматы 16:9, 9:16 и 1:1. Скорость: Fabric 1.0 Fast примерно в 2.5 раза быстрее Standard, версия 480p отрабатывает 10 секунд за ~1.5 минуты.

  • Image + Audio → видео с lip-sync (не T2V)
  • Любой стиль входного изображения — фото, иллюстрация, аниме, 3D
  • 30+ языков, до 5 минут через API
  • Разрешения 480p и 720p, FPS 25, форматы 16:9 / 9:16 / 1:1
  • Fast-вариант ~2.5× быстрее Standard

Два режима работы

Audio-режим: ты сам приносишь аудиофайл (mp3/wav/m4a/aac/ogg, до 10 МБ). Текстового промпта здесь нет вообще — модель просто синхронизирует губы и движения под звук. Качество напрямую зависит от пары изображение + аудио: чистая запись без фонового шума, фронтальное изображение с видимым лицом и ртом, без экстремальных ракурсов и сильных бликов на лице.

TTS-режим (через VEED): аудио генерируется из речевого скрипта движком ElevenLabs V3. Здесь «промпт» — это и есть скрипт: текст, который произносится в кадре, плюс встроенные теги в квадратных скобках для контроля эмоций, темпа, акцента и звуковых эффектов. Скрипт может быть на любом из 30+ поддерживаемых языков, включая русский, английский, китайский, японский, испанский и арабский.

Fabric Emotions: inline теги в скрипте

В TTS-режиме в текст скрипта встраиваются теги [tag] для эмоциональной экспрессии. Это не разметка форматирования, а режиссёрские указания для движка озвучки:

Эмоции: [excited], [happy], [sad], [angry], [curious], [nervous], [confident]. Реакции: [laughs], [sighs], [gasps], [clears throat]. Громкость: [whispers], [shouting]. Темп: [pause], [long pause], [breathes], [rushed], [drawn out]. Звуковые эффекты: [applause], [gunshot], [door creaks]. Акцент: [American accent], [British accent].

Правило одно: не перегружать тегами. Один тег на 1-2 предложения, распределять постепенно для естественного звучания. Тег перед каждым словом сломает интонацию — модель начнёт каждое слово произносить отдельно, с провалами, рывками и неестественными паузами.

Требования к входному изображению

Входное изображение задаёт всё визуальное качество итогового клипа. Базовые правила: фронтальное лицо или близко к фронтальному, без сильных Dutch-углов и профилей под 90 градусов. Лицо хорошо освещено и хорошо видно — без глубоких теней на одной половине, без сильных бликов от очков. Никаких окклюзий (рук перед лицом, медицинской маски, очков с зеркальными бликами на глазах) — модель просто не вытянет lip-sync, если рта не видно.

Форматы — jpg, jpeg, png, webp, gif, avif; размер до 10 МБ. Стиль не критичен: Fabric одинаково хорошо оживляет фото, иллюстрации в стиле аниме, 3D-рендеры пластилиновых персонажей, корпоративных маскотов и бренд-аватаров. Но в любом случае нужно одно чёткое лицо в кадре — не толпа, не два персонажа одновременно, не профиль без видимого рта.

Типичные ошибки

  1. 1. Описание сцены вместо скрипта

    Fabric — не T2V. Промпт типа «a man in a forest at sunset, walking and explaining the product» модель проигнорирует: она не генерирует ни лес, ни закат, ни ходьбу. Вместо описания сцены давай готовое изображение (фон + лицо) и речевой скрипт с тегами. Сцену рисует другой инструмент, Fabric только оживляет лицо.

  2. 2. Перегрузка эмоциональными тегами

    [excited] Hello [happy] everyone [laughs] today [confident] I want — модель сорвётся в рывки, паузы и неестественные переходы. Один тег на 1-2 предложения, не на каждое слово. Реакции [laughs], [sighs] ставь между фразами, не внутри. Эмоции работают как режиссёрские указания, а не как разметка каждой словоформы.

  3. 3. Грязное аудио или сильный фоновый шум

    В Audio-режиме качество lip-sync напрямую зависит от чистоты звука. Сильный фоновый шум, эхо, музыка поверх речи путают модель — губы начинают «дрейфовать», синхронизация ломается. Записывай речь отдельно, фоновую музыку добавляй на монтаже после генерации, не в исходном аудиофайле.

  4. 4. Экстремальные ракурсы на входном изображении

    Сильный профиль, Dutch-угол, лицо в окклюзии (за рукой, под маской, с бликами на очках) — модель не вытянет lip-sync. Используй фронтальное или близкое к фронтальному изображение с хорошо видимым ртом и равномерным освещением. Анимация стиля не критична, ракурс — критичен.

  5. 5. Ожидание камерных движений или экшна

    Fabric не делает dolly, push-in, tracking shot — модель не двигает камеру и не меняет план. Если в брифе нужны кинематографические движения и действия персонажа в среде, это задача для Sora 2, Veo 3.1 или Kling. Fabric закрывает другой кейс: фиксированный кадр, оживший лицом и речью.

Примеры до/после

Пример 1

Было

person talking about a product

Стало

[TTS script for Veed Fabric, paired with a frontal product-shot image of a brand mascot]

[confident] Hey there! I'm Otto, and today I'm showing you something special. [pause] Our new wireless earbuds give you twelve hours of battery on a single charge. [excited] Twelve full hours — that's almost a whole workday! [pause] [drawn out] No more low-battery anxiety. Tap the link below to grab yours.

Это речевой скрипт для TTS-режима, не описание сцены. Эмоциональные теги [confident], [excited], [drawn out] расставлены через паузы, не на каждом слове.

Пример 2

Было

a brand mascot says hello to viewers

Стало

[TTS script paired with a frontal illustration of the brand mascot]

[happy] Hello, friends! [laughs] It's so good to see you again. [pause] I've been waiting all week to share this with you. [curious] Have you ever wondered what makes our community special? [pause] [confident] Stick around — I'll show you in the next sixty seconds.

Скрипт короткий, теги распределены: одна эмоция → одна-две фразы → пауза. Реакции типа [laughs] делают talking head живым.

Пример 3

Было

explain something in two languages

Стало

[TTS script for Veed Fabric, paired with a frontal image of an animated instructor — illustration style]

[British accent] [confident] Welcome back to the channel. Today we're tackling something most beginners get wrong. [pause] [curious] What if I told you the trick is in the timing, not the tools? [drawn out] Let me show you. [pause] In the next clip I'll walk through it step by step.

Акцент задаётся тегом [British accent] в начале и держится дальше. Скрипт продуман под ~15 секунд произнесения — не пытается уместить целую лекцию.

Частые вопросы

Чем Veed Fabric отличается от обычной text-to-video модели?
Fabric не генерирует сцены, фоны и движение камеры — он оживляет статичное изображение под речь. На вход идёт пара изображение + аудио (или скрипт для TTS), на выход — talking head с lip-sync, движениями головы и жестами. Это специализированный инструмент для одного кейса: говорящий персонаж в фиксированном кадре. Для кинематографических клипов нужны Sora 2, Veo 3.1, Kling.
Какие языки поддерживает Fabric?
Fabric поддерживает 30+ языков, включая русский, английский, испанский, французский, немецкий, китайский, японский, арабский. Аудио или TTS-скрипт может быть на любом из них. Это делает Fabric удобным для локализации talking head контента: один и тот же визуальный персонаж может говорить на нескольких языках с разными скриптами.
Какая разница между Fabric 1.0 Standard и Fabric 1.0 Fast?
Standard даёт максимальное качество, Fast — примерно в 2.5 раза быстрее при той же архитектуре DiT. На 480p Standard отрабатывает 10 секунд видео примерно за 1.5 минуты, Fast — заметно быстрее. На 720p Standard работает около 5 минут на 10 секунд. Выбирай Fast для итераций и прототипирования, Standard — для финального продакшна.
Какие требования к входному изображению?
Форматы — jpg, jpeg, png, webp, gif, avif, до 10 МБ. Лицо должно быть фронтальным или близким к фронтальному, хорошо освещённым, без окклюзий (руки, маски, бликов на очках). Один персонаж в кадре, не толпа. Стиль не критичен — фото, иллюстрация, аниме, 3D работают одинаково. Критичен ракурс: модель должна видеть рот.
Что такое Fabric Emotions и как их использовать?
Fabric Emotions — inline теги в квадратных скобках, которые встраиваются в речевой скрипт в TTS-режиме. Категории: эмоции ([excited], [sad]), реакции ([laughs], [sighs]), громкость ([whispers], [shouting]), темп ([pause], [rushed]), звуковые эффекты ([applause]), акценты ([British accent]). Распределяй их постепенно — один тег на 1-2 фразы, не на каждое слово.
Можно ли использовать Fabric для длинных видео?
Через API — да, до 5 минут на один клип. В Studio действует лимит около 30 секунд на клип. Для длинного контента используй API напрямую или режь длинную речь на несколько клипов и склеивай в посте. Lip-sync остаётся стабильным на длинных отрезках, если входное аудио чистое и без резких смен темпа.
Поддерживается ли Opten для Veed Fabric?
Да, расширение Opten распознаёт Fabric в интерфейсе VEED и оценивает речевой скрипт по структуре, описанной выше: проверяет наличие входного изображения, длину скрипта под целевую длительность, разумное распределение эмоциональных тегов, отсутствие сценического описания вместо TTS-текста. Одним кликом можно получить rewrite скрипта в правильном формате.

Похожие модели

Готов писать промпты для Veed Fabric 1.0 в один клик?

  • Автоопределение модели прямо в её интерфейсе
  • Скоринг каждой строки промпта
  • Rewrite по правильной структуре одной кнопкой
ChromeYandex BrowserChrome / Yandex BrowserУстановить расширение

Pro — $2.99/мес или 199 ₽/мес · отмена в любое время