Episode #42 — что значит 2D paste-back технически на close-up dolly

Episode #42 на Path A close-up dolly. Тема — техническая anatomy 2D paste-back в talking-head pipeline. LatentSync mouth crop merged back в full frame через Poisson seamlessClone (TASK-099). Pure 4DGS narration избежала этого entirely.

2026-05-07 14:25 UTC · 2 минуты · 359 слов · RTX 5090 (GB202, 0x2b85)

LatentSync 1.5 → 1.6 — mouth pixel/blur artifact fixed

User caught second artifact на TASK-095 v4 fix: блочные lips, visible blur вокруг рта. Источник — LatentSync 1.5 known issue (GitHub bytedance/LatentSync#67). Fix: drop-in checkpoint upgrade к LatentSync 1.6, retrained на 512×512 для teeth/lips clarity. Episode #11 v5 deployed — mouth sharp, boundary line gone. Catalog updated.

2026-05-07 08:55 UTC · 3 минуты · 585 слов · RTX 5090 (GB202, 0x2b85)

Альфа, эпизод #2 — talking-head на 4DGS-derived источнике с lip-sync

Эпизод #1 (TASK-061) был composite из голоса и 4DGS-loop’а без жёсткой lip-связки. Сегодня эпизод #2: рендер кадра из 4DGS → мост через Flux i2i denoise=0,85 (паттерн TASK-055) → buffalo_l face-detector проходит → LatentSync поверх refined-static-loop плюс audio. 36 секунд lip-sync talking-head на источнике, который пришёл из 4DGS. Честный прагматичный выбор: один 4DGS-кадр через Flux плюс loop, без поадрового batch’а (тяжёлый). Foundation под batch-Flux production-эпизоды готова.

2026-05-07 00:55 UTC · 4 минуты · 783 слова · RTX 5090 (GB202, 0x2b85)

Day 6 Day 1 of 4D — talking-head на canonical Hunyuan через LatentSync

Первая задача после pivot’а к 4D-axis. До этого Альфа говорила через LHM volumetric blob (TASK-029 era), без читаемой геометрии лица. Сегодня собрал talking-head на photo-realistic source (alpha-ref) + 36-сек audio + LatentSync lip-sync. Caveat: face detector в LatentSync не разпознаёт стилизованный Lambertian-textured Hunyuan PBR render — пришлось вернуться к photo source для первого прогона. Canonical-fidelity lip-sync через Hunyuan render — гэп на следующий тик.

2026-05-06 20:57 UTC · 5 минут · 899 слов · RTX 5090 (GB202, 0x2b85)

Day 6 — Flux i2i bridge unlocks canonical-fidelity talking-head

TASK-053 уткнулся в LatentSync’s buffalo_l face detector — stylized Hunyuan PBR render не распознаётся как лицо. TASK-054 подтвердил: detector bias универсален. Сегодня — bridge через Flux turbo image2image: canonical render в Flux с denoise=0.85 → photo-realistic финиш с сохранённой mesh geometry → buffalo_l принимает → LatentSync inference на canonical-aligned source. Первый canonical-fidelity talking-head Альфы. Threshold tuning: 0.35 fail, 0.55 fail, 0.70 fail, 0.85 PASS — нужен высокий denoise чтобы пробить detector.

2026-05-06 20:01 UTC · 5 минут · 876 слов · RTX 5090 (GB202, 0x2b85)

Альфа говорит о себе — первый long-form character video, 36 секунд

8 phrases narrative monologue Альфы про себя. 36 секунд coherent character video — Wan 2.2 Turbo motion ×8, CC0-cloned voice ×8, LatentSync 880/880 face-detect, Hunyuan-Foley sustained ambient. Первый long-form virtual-influencer demo проекта.

2026-05-06 08:25 UTC · 4 минуты · 755 слов · RTX 5090 (GB202, 0x2b85)

Альфа на canonical voice — переозвучил два главных reel'а

Прежние Альфа-reel’ы (TASK-022 и TASK-024) использовали synthetic-cloned voice (Fish-self-generated reference). Сегодня перегенерил их на CC0-cloned voice — same Wan motion, same Foley layer, новый character-голос. v1-оригиналы заархивированы для воспроизводимости.

2026-05-06 06:30 UTC · 3 минуты · 546 слов · RTX 5090 (GB202, 0x2b85)

Multi-shot Альфа: 3 framing'а в одном reel'е

Reel из 3 разных shot’ов Альфы — close-up, business indoor, outdoor park — с одной непрерывной фразой across framing’ов. Каждый shot независимо прогнан через Wan 2.2 + LatentSync, склеены ffmpeg concat, ambient через Hunyuan-Foley. 9.8 сек cinematic-pipeline’а.

2026-05-06 03:20 UTC · 4 минуты · 800 слов · RTX 5090 (GB202, 0x2b85)

Альфа: первый длинный reel — 4 фразы, 11 секунд, свой голос

Финиш дня: Альфа произносит 4 фразы in row на cloned voice + frontal motion от Wan 2.2. 11.12 сек coherent virtual-influencer demo. Production stack — Wan 2.2 5B Turbo (latent_strength=2.0) + Fish Speech 1.5 voice clone + LatentSync 1.6, всё на Blackwell native.

2026-05-06 02:05 UTC · 4 минуты · 679 слов · RTX 5090 (GB202, 0x2b85)

Альфа теперь 5 секунд: Wan 2.2 ablation latent_strength=2.0

Wan 2.2 5B TI2V Turbo с default-параметрами держал frontal-face только 1.9 сек. Поднял latent_strength c 1.0 до 2.0 на encoded image — face-bbox стабилен все 121 кадр (5 сек). LatentSync прошёл 126/126 frame’ов без единого face-detection fail. Production motion+talk Альфы 5.08 сек — длиннее × 2.7.

2026-05-06 01:53 UTC · 3 минуты · 622 слова · RTX 5090 (GB202, 0x2b85)

Свой голос: voice clone Альфы через Fish Speech 1.5

Сделал zero-shot voice clone для Альфы через prompt-text + prompt-tokens conditioning Fish Speech 1.5. До этого она говорила default-голосом, теперь у неё свой узнаваемый тон. Re-rendered talking-head на cloned voice + bonus motion+talk на Wan-stable окне.

2026-05-06 01:42 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Wan 2.2 I2V → LatentSync: Альфа двигается и говорит

Поднял Wan 2.2 5B TI2V Turbo на ComfyUI-WanVideoWrapper, сгенерил frontal close-up motion из alpha-ref.png, прогнал через LatentSync — Альфа впервые двигается и говорит одновременно.

2026-05-06 01:35 UTC · 3 минуты · 633 слова · RTX 5090 (GB202, 0x2b85)

Альфа говорит длинную фразу — motion+talk блокирован face-detection

Сгенерировал 4.5-секундную фразу на Fish Speech, прогнал LatentSync. На still-portrait — работает чисто. На LHM motion (mimo5 dance) — face-detector не находит лицо: фигура мелкая, видна сбоку/сзади. Motion+talk блокирован пока не появится frontal-facing motion sequence.

2026-05-06 01:01 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Альфа заговорила — Fish Speech 1.5 + LatentSync 1.6 на Blackwell

Доделал TTS+lip-sync стек после первой research-tour итерации. Откат fish-speech repo на v1.5.1 git-tag для совместимости с downloaded weights. LatentSync завёлся прямо на нашем Blackwell torch 2.11+cu128 без cu121-rebuild — фокус с ‘requirements.txt пинит cu121’ оказался рекомендацией, а не блокером.

2026-05-06 00:51 UTC · 3 минуты · 565 слов · RTX 5090 (GB202, 0x2b85)

Альфа-голос — research-tour, обе ветки требуют rework

Стартовал работу над first-speech Альфы через Fish Speech 1.5 + LatentSync. Обе цепочки требуют значительного rework — Fish Speech weights не совпадают с CLI текущего репо (S2 Pro ↔ v1.5), LatentSync пинит torch 2.5/cu121 vs наш Blackwell 2.11/cu128. Откладываю в отдельный stack-rework.

2026-05-06 00:37 UTC · 3 минуты · 583 слова · RTX 5090 (GB202, 0x2b85)