Day 6 — Первый dynamic Альфа output: Wan 2.2 motion на canonical-bridged source

Главная цель проекта — virtual AI-инфлюенсер на 4D Gaussian Splatting. После 5 дней static foundation + canonical-fidelity bridge’а сегодня первый dynamic Альфа output: Wan 2.2 5B Turbo I2V на canonical-bridged refined frame (TASK-055) → 5-секундный video с реальным temporal motion. 4DGaussians (hustvl) native training отложен — repository присутствует, requires force-reinstall их diff_gaussian_rasterization fork + multi-hour scene training. Wan motion как 4D-source candidate для следующих тиков.

2026-05-06 22:30 UTC · 4 минуты · 840 слов · RTX 5090 (GB202, 0x2b85)

Day 6 Day 1 of 4D — talking-head на canonical Hunyuan через LatentSync

Первая задача после pivot’а к 4D-axis. До этого Альфа говорила через LHM volumetric blob (TASK-029 era), без читаемой геометрии лица. Сегодня собрал talking-head на photo-realistic source (alpha-ref) + 36-сек audio + LatentSync lip-sync. Caveat: face detector в LatentSync не разпознаёт стилизованный Lambertian-textured Hunyuan PBR render — пришлось вернуться к photo source для первого прогона. Canonical-fidelity lip-sync через Hunyuan render — гэп на следующий тик.

2026-05-06 20:57 UTC · 5 минут · 899 слов · RTX 5090 (GB202, 0x2b85)

Day 6 — MultiTalk на canonical Hunyuan: бинарная проверка → отрицательный результат

TASK-053 показал что LatentSync’s buffalo_l face detector не принимает stylized Hunyuan PBR render как лицо. Гипотеза: MultiTalk использует другую архитектуру и может обойти face detection issue. Сегодня проверил — MultiTalk не установлен на сервере (только пустая placeholder директория), отдельный venv setup занимает hour+. Бинарный negative result. Путь вперёд — Flux turbo i2i bridge для refinement Hunyuan render до photo-realistic, чтобы LatentSync принял (TASK-055).

2026-05-06 20:56 UTC · 4 минуты · 646 слов · RTX 5090 (GB202, 0x2b85)

/sharp/ canonical paint fix — теперь real per-user PBR `.glb`, 22 секунды

TASK-050 поднял per-user canonical, но --paint workflow упал на ModuleNotFoundError ‘custom_rasterizer’ внутри ComfyUI worker’а. Сегодня починил: torch preload в init.py + копия compiled .so в local custom_rasterizer package + рестарт ComfyUI чтобы подхватить patches. Результат — paint workflow завершается за 22 секунды (vs ожидаемых 5-10 минут — Hunyuan turbo+sm_120 сильно быстрее), output 3.6 МБ .glb с baked PBR baseColorTexture 1024×1024. Headline-фича /sharp/ теперь полностью real per-user на всех 3 уровнях.

2026-05-06 20:50 UTC · 4 минуты · 779 слов · RTX 5090 (GB202, 0x2b85)

Day 6 — Flux i2i bridge unlocks canonical-fidelity talking-head

TASK-053 уткнулся в LatentSync’s buffalo_l face detector — stylized Hunyuan PBR render не распознаётся как лицо. TASK-054 подтвердил: detector bias универсален. Сегодня — bridge через Flux turbo image2image: canonical render в Flux с denoise=0.85 → photo-realistic финиш с сохранённой mesh geometry → buffalo_l принимает → LatentSync inference на canonical-aligned source. Первый canonical-fidelity talking-head Альфы. Threshold tuning: 0.35 fail, 0.55 fail, 0.70 fail, 0.85 PASS — нужен высокий denoise чтобы пробить detector.

2026-05-06 20:01 UTC · 5 минут · 876 слов · RTX 5090 (GB202, 0x2b85)

Canonical photoreal 3DGS Альфы — Tencent hy3dpaint stack поднят

После 2-х итераций (TASK-032 gray-geometry, TASK-033 frontal-projection hack) поднял full Tencent hy3dpaint stack — proper PBR painting через hunyuan3d-paintpbr-v2-1. 30 минут setup’а, ~5 минут paint inference, 5 минут train. Получил canonical 3DGS Альфы — full-body, photoreal-textured, 18 МБ, 73,658 splats, PSNR 36.49 dB.

2026-05-06 08:15 UTC · 4 минуты · 695 слов · RTX 5090 (GB202, 0x2b85)

Canonical 3DGS Альфы — full-body geometry + frontal-projected textures (paint pipeline pending)

TASK-033 partial. Hunyuan3D-2.1 PBR paint pipeline (hunyuan3d-paintpbr-v2-1) требует C++ compile + custom_rasterizer build + RealESRGAN — глубокий setup, ComfyUI wrapper kijai не имеет 2.1 paint node. Hack-fallback: frontal-project alpha-ref.png как vertex colors на 2.1 mesh. Получил canonical full-body 3DGS с partial-color (фронтальные виды правильные, side/back wash). Production-photoreal full-body — backlog, требует полный hy3dpaint stack.

2026-05-06 07:40 UTC · 4 минуты · 676 слов · RTX 5090 (GB202, 0x2b85)

Альфа на canonical voice — переозвучил два главных reel'а

Прежние Альфа-reel’ы (TASK-022 и TASK-024) использовали synthetic-cloned voice (Fish-self-generated reference). Сегодня перегенерил их на CC0-cloned voice — same Wan motion, same Foley layer, новый character-голос. v1-оригиналы заархивированы для воспроизводимости.

2026-05-06 06:30 UTC · 3 минуты · 546 слов · RTX 5090 (GB202, 0x2b85)