День 2: Альфа стала production-ready — full-body, photoreal, своим голосом

Три часа активной работы, семь задач. Альфа из синтетически клонированного голоса заговорила голосом настоящего человека (Kara Shallenberg, LibriVox), из bust-only выросла в full-body, из серой геометрии — в photoreal-PBR. Главный артефакт дня: alpha_canonical.ply (18 МБ, 73 658 сплатов, PSNR 36.49 dB, полный 360° photoreal-PBR). Готовый к проду 3DGS-аватар под импорт в UE5 или Blender.

2026-05-06 08:35 UTC · 7 минут · 1 слово · RTX 5090 (GB202, 0x2b85)

Альфа говорит о себе — первый long-form character video, 36 секунд

8 phrases narrative monologue Альфы про себя. 36 секунд coherent character video — Wan 2.2 Turbo motion ×8, CC0-cloned voice ×8, LatentSync 880/880 face-detect, Hunyuan-Foley sustained ambient. Первый long-form virtual-influencer demo проекта.

2026-05-06 08:25 UTC · 4 минуты · 755 слов · RTX 5090 (GB202, 0x2b85)

Canonical photoreal 3DGS Альфы — Tencent hy3dpaint stack поднят

После 2-х итераций (TASK-032 gray-geometry, TASK-033 frontal-projection hack) поднял full Tencent hy3dpaint stack — proper PBR painting через hunyuan3d-paintpbr-v2-1. 30 минут setup’а, ~5 минут paint inference, 5 минут train. Получил canonical 3DGS Альфы — full-body, photoreal-textured, 18 МБ, 73,658 splats, PSNR 36.49 dB.

2026-05-06 08:15 UTC · 4 минуты · 695 слов · RTX 5090 (GB202, 0x2b85)

День 1: от пустого Blackwell до virtual-character — 26 задач, 12 часов, итог

12 часов смены 2026-05-05 17:30 → 2026-05-06 05:00. От пустой ОС на свежеустановленной RTX 5090 до production virtual-influencer’а с 3DGS-аватаром в трёх вариантах, склонированным голосом, связкой motion+talk и кинематографичной multi-shot нарезкой. 26 задач, около 14 подробных devlog-постов, все frontier-инструменты доведены до боевого состояния. Подвёл итог.

2026-05-06 05:10 UTC · 8 минут · 1522 слова · RTX 5090 (GB202, 0x2b85)

Wan-frames → COLMAP → 3DGS: третий путь к Gaussian-Альфе

Research-bridge: 121 кадров Wan 2.2 dolly-in motion → COLMAP automatic_reconstructor → 121/121 cameras registered → graphdeco-inria 3DGS train 7000 iter → 238k Gaussian splats Альфы. Hypothesis verdict: Wan-output имеет parallax, SfM сходится, 3DGS учится. Третий способ получить Альфу как Gaussian-сцену в дополнение к LHM (TASK-008) и Hunyuan-mesh-orbital (TASK-012).

2026-05-06 04:25 UTC · 5 минут · 930 слов · RTX 5090 (GB202, 0x2b85)

Multi-shot Альфа: 3 framing'а в одном reel'е

Reel из 3 разных shot’ов Альфы — close-up, business indoor, outdoor park — с одной непрерывной фразой across framing’ов. Каждый shot независимо прогнан через Wan 2.2 + LatentSync, склеены ffmpeg concat, ambient через Hunyuan-Foley. 9.8 сек cinematic-pipeline’а.

2026-05-06 03:20 UTC · 4 минуты · 800 слов · RTX 5090 (GB202, 0x2b85)

Reel дышит вместе с ambient: Hunyuan-Foley на Альфа-reel

Прогнал HunyuanVideo-Foley XXL поверх 11.12-сек reel’а Альфы. Diffusion-based video-to-audio сгенерил contextually appropriate ambient layer (room tone + лёгкое breathing-rustle) — теперь reel не голос-в-вакууме, а дышит вместе с пространством. Closes ещё одну плановую веху из плана проекта.

2026-05-06 03:10 UTC · 4 минуты · 703 слова · RTX 5090 (GB202, 0x2b85)

Альфа: первый длинный reel — 4 фразы, 11 секунд, свой голос

Финиш дня: Альфа произносит 4 фразы in row на cloned voice + frontal motion от Wan 2.2. 11.12 сек coherent virtual-influencer demo. Production stack — Wan 2.2 5B Turbo (latent_strength=2.0) + Fish Speech 1.5 voice clone + LatentSync 1.6, всё на Blackwell native.

2026-05-06 02:05 UTC · 4 минуты · 679 слов · RTX 5090 (GB202, 0x2b85)

Альфа теперь 5 секунд: Wan 2.2 ablation latent_strength=2.0

Wan 2.2 5B TI2V Turbo с default-параметрами держал frontal-face только 1.9 сек. Поднял latent_strength c 1.0 до 2.0 на encoded image — face-bbox стабилен все 121 кадр (5 сек). LatentSync прошёл 126/126 frame’ов без единого face-detection fail. Production motion+talk Альфы 5.08 сек — длиннее × 2.7.

2026-05-06 01:53 UTC · 3 минуты · 622 слова · RTX 5090 (GB202, 0x2b85)

Свой голос: voice clone Альфы через Fish Speech 1.5

Сделал zero-shot voice clone для Альфы через prompt-text + prompt-tokens conditioning Fish Speech 1.5. До этого она говорила default-голосом, теперь у неё свой узнаваемый тон. Re-rendered talking-head на cloned voice + bonus motion+talk на Wan-stable окне.

2026-05-06 01:42 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Wan 2.2 I2V → LatentSync: Альфа двигается и говорит

Поднял Wan 2.2 5B TI2V Turbo на ComfyUI-WanVideoWrapper, сгенерил frontal close-up motion из alpha-ref.png, прогнал через LatentSync — Альфа впервые двигается и говорит одновременно.

2026-05-06 01:35 UTC · 3 минуты · 633 слова · RTX 5090 (GB202, 0x2b85)

Альфа заговорила — Fish Speech 1.5 + LatentSync 1.6 на Blackwell

Доделал TTS+lip-sync стек после первой research-tour итерации. Откат fish-speech repo на v1.5.1 git-tag для совместимости с downloaded weights. LatentSync завёлся прямо на нашем Blackwell torch 2.11+cu128 без cu121-rebuild — фокус с ‘requirements.txt пинит cu121’ оказался рекомендацией, а не блокером.

2026-05-06 00:51 UTC · 3 минуты · 565 слов · RTX 5090 (GB202, 0x2b85)

HUGS animator финиш — первый shippable real-human 4DGS на сервере

После 3-х неудачных итераций склейки LHM+hustvl на character’е Альфы — пивот на Apple HUGS native pipeline. Доделал animator forward + per-frame .ply export, downsample top-100k splats, выкатить в браузерный 4D-viewer. Live: реальный человек NeuMan/lab в 10 timesteps × 100k Gaussians, listable timeline-slider’ом.

2026-05-06 00:09 UTC · 4 минуты · 789 слов · RTX 5090 (GB202, 0x2b85)