Чем Veed Fabric отличается от обычной text-to-video модели?

Fabric не генерирует сцены, фоны и движение камеры — он оживляет статичное изображение под речь. На вход идёт пара изображение + аудио (или скрипт для TTS), на выход — talking head с lip-sync, движениями головы и жестами. Это специализированный инструмент для одного кейса: говорящий персонаж в фиксированном кадре. Для кинематографических клипов нужны Sora 2, Veo 3.1, Kling.

Какие языки поддерживает Fabric?

Fabric поддерживает 30+ языков, включая русский, английский, испанский, французский, немецкий, китайский, японский, арабский. Аудио или TTS-скрипт может быть на любом из них. Это делает Fabric удобным для локализации talking head контента: один и тот же визуальный персонаж может говорить на нескольких языках с разными скриптами.

Какая разница между Fabric 1.0 Standard и Fabric 1.0 Fast?

Standard даёт максимальное качество, Fast — примерно в 2.5 раза быстрее при той же архитектуре DiT. На 480p Standard отрабатывает 10 секунд видео примерно за 1.5 минуты, Fast — заметно быстрее. На 720p Standard работает около 5 минут на 10 секунд. Выбирай Fast для итераций и прототипирования, Standard — для финального продакшна.

Какие требования к входному изображению?

Форматы — jpg, jpeg, png, webp, gif, avif, до 10 МБ. Лицо должно быть фронтальным или близким к фронтальному, хорошо освещённым, без окклюзий (руки, маски, бликов на очках). Один персонаж в кадре, не толпа. Стиль не критичен — фото, иллюстрация, аниме, 3D работают одинаково. Критичен ракурс: модель должна видеть рот.

Что такое Fabric Emotions и как их использовать?

Fabric Emotions — inline теги в квадратных скобках, которые встраиваются в речевой скрипт в TTS-режиме. Категории: эмоции ([excited], [sad]), реакции ([laughs], [sighs]), громкость ([whispers], [shouting]), темп ([pause], [rushed]), звуковые эффекты ([applause]), акценты ([British accent]). Распределяй их постепенно — один тег на 1-2 фразы, не на каждое слово.

Можно ли использовать Fabric для длинных видео?

Через API — да, до 5 минут на один клип. В Studio действует лимит около 30 секунд на клип. Для длинного контента используй API напрямую или режь длинную речь на несколько клипов и склеивай в посте. Lip-sync остаётся стабильным на длинных отрезках, если входное аудио чистое и без резких смен темпа.

Поддерживается ли Opten для Veed Fabric?

Да, расширение Opten распознаёт Fabric в интерфейсе VEED и оценивает речевой скрипт по структуре, описанной выше: проверяет наличие входного изображения, длину скрипта под целевую длительность, разумное распределение эмоциональных тегов, отсутствие сценического описания вместо TTS-текста. Одним кликом можно получить rewrite скрипта в правильном формате.

Video

Veed Fabric: как писать промпты, которые модель понимает

Name: Veed Fabric 1.0
Brand: VEED

VEED · Обновлено: 19 мая 2026 г.

Veed Fabric 1.0 — специализированная lip-sync модель, а не генератор видео общего назначения. На вход идёт изображение и аудио (или речевой скрипт для TTS), на выход — анимированный talking head с движениями губ, головы и рук. Поддерживается 30+ языков, до 5 минут через API. Промпт в традиционном смысле не используется.

Как работает Fabric и чем он отличается

Fabric — это не text-to-video. Это lip-sync / talking head система на архитектуре Diffusion Transformer (DiT), оживляющая статичное изображение под аудио. На вход подаётся пара: одно изображение и один аудиофайл. Модель строит lip-sync, добавляет естественные движения головы, тела и жесты рук, привязанные к ритму речи.

Изображение может быть в любом стиле: фото, иллюстрация, аниме, 3D-рендер, глиняный маскот, бренд-персонаж. Это ключевое отличие от классических avatar-генераторов — Fabric не требует фотореалистичного лица. Аудио — речь или музыка. Разрешения 480p и 720p, FPS 25, форматы 16:9, 9:16 и 1:1. Скорость: Fabric 1.0 Fast примерно в 2.5 раза быстрее Standard, версия 480p отрабатывает 10 секунд за ~1.5 минуты.

Image + Audio → видео с lip-sync (не T2V)
Любой стиль входного изображения — фото, иллюстрация, аниме, 3D
30+ языков, до 5 минут через API
Разрешения 480p и 720p, FPS 25, форматы 16:9 / 9:16 / 1:1
Fast-вариант ~2.5× быстрее Standard

Два режима работы

Audio-режим: ты сам приносишь аудиофайл (mp3/wav/m4a/aac/ogg, до 10 МБ). Текстового промпта здесь нет вообще — модель просто синхронизирует губы и движения под звук. Качество напрямую зависит от пары изображение + аудио: чистая запись без фонового шума, фронтальное изображение с видимым лицом и ртом, без экстремальных ракурсов и сильных бликов на лице.

TTS-режим (через VEED): аудио генерируется из речевого скрипта движком ElevenLabs V3. Здесь «промпт» — это и есть скрипт: текст, который произносится в кадре, плюс встроенные теги в квадратных скобках для контроля эмоций, темпа, акцента и звуковых эффектов. Скрипт может быть на любом из 30+ поддерживаемых языков, включая русский, английский, китайский, японский, испанский и арабский.

Fabric Emotions: inline теги в скрипте

В TTS-режиме в текст скрипта встраиваются теги [tag] для эмоциональной экспрессии. Это не разметка форматирования, а режиссёрские указания для движка озвучки:

Эмоции: [excited], [happy], [sad], [angry], [curious], [nervous], [confident]. Реакции: [laughs], [sighs], [gasps], [clears throat]. Громкость: [whispers], [shouting]. Темп: [pause], [long pause], [breathes], [rushed], [drawn out]. Звуковые эффекты: [applause], [gunshot], [door creaks]. Акцент: [American accent], [British accent].

Правило одно: не перегружать тегами. Один тег на 1-2 предложения, распределять постепенно для естественного звучания. Тег перед каждым словом сломает интонацию — модель начнёт каждое слово произносить отдельно, с провалами, рывками и неестественными паузами.

Требования к входному изображению

Входное изображение задаёт всё визуальное качество итогового клипа. Базовые правила: фронтальное лицо или близко к фронтальному, без сильных Dutch-углов и профилей под 90 градусов. Лицо хорошо освещено и хорошо видно — без глубоких теней на одной половине, без сильных бликов от очков. Никаких окклюзий (рук перед лицом, медицинской маски, очков с зеркальными бликами на глазах) — модель просто не вытянет lip-sync, если рта не видно.

Форматы — jpg, jpeg, png, webp, gif, avif; размер до 10 МБ. Стиль не критичен: Fabric одинаково хорошо оживляет фото, иллюстрации в стиле аниме, 3D-рендеры пластилиновых персонажей, корпоративных маскотов и бренд-аватаров. Но в любом случае нужно одно чёткое лицо в кадре — не толпа, не два персонажа одновременно, не профиль без видимого рта.

Типичные ошибки

1. Описание сцены вместо скрипта
Fabric — не T2V. Промпт типа «a man in a forest at sunset, walking and explaining the product» модель проигнорирует: она не генерирует ни лес, ни закат, ни ходьбу. Вместо описания сцены давай готовое изображение (фон + лицо) и речевой скрипт с тегами. Сцену рисует другой инструмент, Fabric только оживляет лицо.
2. Перегрузка эмоциональными тегами
[excited] Hello [happy] everyone [laughs] today [confident] I want — модель сорвётся в рывки, паузы и неестественные переходы. Один тег на 1-2 предложения, не на каждое слово. Реакции [laughs], [sighs] ставь между фразами, не внутри. Эмоции работают как режиссёрские указания, а не как разметка каждой словоформы.
3. Грязное аудио или сильный фоновый шум
В Audio-режиме качество lip-sync напрямую зависит от чистоты звука. Сильный фоновый шум, эхо, музыка поверх речи путают модель — губы начинают «дрейфовать», синхронизация ломается. Записывай речь отдельно, фоновую музыку добавляй на монтаже после генерации, не в исходном аудиофайле.
4. Экстремальные ракурсы на входном изображении
Сильный профиль, Dutch-угол, лицо в окклюзии (за рукой, под маской, с бликами на очках) — модель не вытянет lip-sync. Используй фронтальное или близкое к фронтальному изображение с хорошо видимым ртом и равномерным освещением. Анимация стиля не критична, ракурс — критичен.
5. Ожидание камерных движений или экшна
Fabric не делает dolly, push-in, tracking shot — модель не двигает камеру и не меняет план. Если в брифе нужны кинематографические движения и действия персонажа в среде, это задача для Sora 2, Veo 3.1 или Kling. Fabric закрывает другой кейс: фиксированный кадр, оживший лицом и речью.

Примеры до/после

Пример 1

Было

person talking about a product

Стало

[TTS script for Veed Fabric, paired with a frontal product-shot image of a brand mascot]

[confident] Hey there! I'm Otto, and today I'm showing you something special. [pause] Our new wireless earbuds give you twelve hours of battery on a single charge. [excited] Twelve full hours — that's almost a whole workday! [pause] [drawn out] No more low-battery anxiety. Tap the link below to grab yours.

Это речевой скрипт для TTS-режима, не описание сцены. Эмоциональные теги [confident], [excited], [drawn out] расставлены через паузы, не на каждом слове.

Пример 2

Было

a brand mascot says hello to viewers

Стало

[TTS script paired with a frontal illustration of the brand mascot]

[happy] Hello, friends! [laughs] It's so good to see you again. [pause] I've been waiting all week to share this with you. [curious] Have you ever wondered what makes our community special? [pause] [confident] Stick around — I'll show you in the next sixty seconds.

Скрипт короткий, теги распределены: одна эмоция → одна-две фразы → пауза. Реакции типа [laughs] делают talking head живым.

Пример 3

Было

explain something in two languages

Стало

[TTS script for Veed Fabric, paired with a frontal image of an animated instructor — illustration style]

[British accent] [confident] Welcome back to the channel. Today we're tackling something most beginners get wrong. [pause] [curious] What if I told you the trick is in the timing, not the tools? [drawn out] Let me show you. [pause] In the next clip I'll walk through it step by step.

Акцент задаётся тегом [British accent] в начале и держится дальше. Скрипт продуман под ~15 секунд произнесения — не пытается уместить целую лекцию.

Veed Fabric: как писать промпты, которые модель понимает

Как работает Fabric и чем он отличается

Два режима работы

Fabric Emotions: inline теги в скрипте

Требования к входному изображению

Типичные ошибки

1. Описание сцены вместо скрипта

2. Перегрузка эмоциональными тегами

3. Грязное аудио или сильный фоновый шум

4. Экстремальные ракурсы на входном изображении

5. Ожидание камерных движений или экшна

Примеры до/после

Частые вопросы

Похожие модели

Google Veo 3.1 (включает Veo 3.1 Fast и Veo 3.1 Fast Relax)

Google Veo 3

Google Veo (General)

Готов писать промпты для Veed Fabric 1.0 в один клик?