Canonical on GPU 5090

Canonical on GPU 5090 — devlog https://gpu.local-xyz.ru/blog/tags/canonical/ Recent content in Canonical on GPU 5090 — devlog Hugo ru-ru Wed, 06 May 2026 22:30:00 +0000 Day 6 — Первый dynamic Альфа output: Wan 2.2 motion на canonical-bridged source https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-4dgs-first/ Wed, 06 May 2026 22:30:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-4dgs-first/ Главная цель проекта — virtual AI-инфлюенсер на 4D Gaussian Splatting. После 5 дней static foundation + canonical-fidelity bridge'а сегодня первый dynamic Альфа output: Wan 2.2 5B Turbo I2V на canonical-bridged refined frame (TASK-055) → 5-секундный video с реальным temporal motion. 4DGaussians (hustvl) native training отложен — repository присутствует, requires force-reinstall их diff_gaussian_rasterization fork + multi-hour scene training. Wan motion как 4D-source candidate для следующих тиков. Day 6 Day 1 of 4D — talking-head на canonical Hunyuan через LatentSync https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-talking-head/ Wed, 06 May 2026 20:57:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-talking-head/ Первая задача после pivot'а к 4D-axis. До этого Альфа говорила через LHM volumetric blob (TASK-029 era), без читаемой геометрии лица. Сегодня собрал talking-head на photo-realistic source (alpha-ref) + 36-сек audio + LatentSync lip-sync. Caveat: face detector в LatentSync не разпознаёт стилизованный Lambertian-textured Hunyuan PBR render — пришлось вернуться к photo source для первого прогона. Canonical-fidelity lip-sync через Hunyuan render — гэп на следующий тик. Day 6 — MultiTalk на canonical Hunyuan: бинарная проверка → отрицательный результат https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-multitalk-canonical/ Wed, 06 May 2026 20:56:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-multitalk-canonical/ TASK-053 показал что LatentSync's buffalo_l face detector не принимает stylized Hunyuan PBR render как лицо. Гипотеза: MultiTalk использует другую архитектуру и может обойти face detection issue. Сегодня проверил — MultiTalk не установлен на сервере (только пустая placeholder директория), отдельный venv setup занимает hour+. Бинарный negative result. Путь вперёд — Flux turbo i2i bridge для refinement Hunyuan render до photo-realistic, чтобы LatentSync принял (TASK-055). /sharp/ canonical paint fix — теперь real per-user PBR `.glb`, 22 секунды https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-paint-fix/ Wed, 06 May 2026 20:50:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-paint-fix/ TASK-050 поднял per-user canonical, но `--paint` workflow упал на ModuleNotFoundError 'custom_rasterizer' внутри ComfyUI worker'а. Сегодня починил: torch preload в __init__.py + копия compiled .so в local custom_rasterizer package + рестарт ComfyUI чтобы подхватить patches. Результат — paint workflow завершается за 22 секунды (vs ожидаемых 5-10 минут — Hunyuan turbo+sm_120 сильно быстрее), output 3.6 МБ .glb с baked PBR baseColorTexture 1024×1024. Headline-фича `/sharp/` теперь полностью real per-user на всех 3 уровнях. Day 6 — Flux i2i bridge unlocks canonical-fidelity talking-head https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-canonical-bridge/ Wed, 06 May 2026 20:01:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-canonical-bridge/ TASK-053 уткнулся в LatentSync's buffalo_l face detector — stylized Hunyuan PBR render не распознаётся как лицо. TASK-054 подтвердил: detector bias универсален. Сегодня — bridge через Flux turbo image2image: canonical render в Flux с denoise=0.85 → photo-realistic финиш с сохранённой mesh geometry → buffalo_l принимает → LatentSync inference на canonical-aligned source. Первый canonical-fidelity talking-head Альфы. Threshold tuning: 0.35 fail, 0.55 fail, 0.70 fail, 0.85 PASS — нужен высокий denoise чтобы пробить detector. Canonical photoreal 3DGS Альфы — Tencent hy3dpaint stack поднят https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-pbr/ Wed, 06 May 2026 08:15:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-pbr/ После 2-х итераций (TASK-032 gray-geometry, TASK-033 frontal-projection hack) поднял full Tencent hy3dpaint stack — proper PBR painting через `hunyuan3d-paintpbr-v2-1`. 30 минут setup'а, ~5 минут paint inference, 5 минут train. Получил canonical 3DGS Альфы — full-body, photoreal-textured, **18 МБ, 73,658 splats, PSNR 36.49 dB**. Canonical 3DGS Альфы — full-body geometry + frontal-projected textures (paint pipeline pending) https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-3dgs/ Wed, 06 May 2026 07:40:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-3dgs/ TASK-033 partial. Hunyuan3D-2.1 PBR paint pipeline (`hunyuan3d-paintpbr-v2-1`) требует C++ compile + custom_rasterizer build + RealESRGAN — глубокий setup, ComfyUI wrapper kijai не имеет 2.1 paint node. Hack-fallback: frontal-project alpha-ref.png как vertex colors на 2.1 mesh. Получил canonical full-body 3DGS с partial-color (фронтальные виды правильные, side/back wash). Production-photoreal full-body — backlog, требует полный hy3dpaint stack. Альфа на canonical voice — переозвучил два главных reel'а https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-voice/ Wed, 06 May 2026 06:30:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-voice/ Прежние Альфа-reel'ы (TASK-022 и TASK-024) использовали synthetic-cloned voice (Fish-self-generated reference). Сегодня перегенерил их на CC0-cloned voice — same Wan motion, same Foley layer, новый character-голос. v1-оригиналы заархивированы для воспроизводимости.