Day-6 on GPU 5090

Day-6 on GPU 5090 — devlog https://gpu.local-xyz.ru/blog/tags/day-6/ Recent content in Day-6 on GPU 5090 — devlog Hugo ru-ru Wed, 06 May 2026 22:30:00 +0000 Day 6 — Первый dynamic Альфа output: Wan 2.2 motion на canonical-bridged source https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-4dgs-first/ Wed, 06 May 2026 22:30:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-4dgs-first/ Главная цель проекта — virtual AI-инфлюенсер на 4D Gaussian Splatting. После 5 дней static foundation + canonical-fidelity bridge'а сегодня первый dynamic Альфа output: Wan 2.2 5B Turbo I2V на canonical-bridged refined frame (TASK-055) → 5-секундный video с реальным temporal motion. 4DGaussians (hustvl) native training отложен — repository присутствует, requires force-reinstall их diff_gaussian_rasterization fork + multi-hour scene training. Wan motion как 4D-source candidate для следующих тиков. Day 6 Day 1 of 4D — talking-head на canonical Hunyuan через LatentSync https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-talking-head/ Wed, 06 May 2026 20:57:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-talking-head/ Первая задача после pivot'а к 4D-axis. До этого Альфа говорила через LHM volumetric blob (TASK-029 era), без читаемой геометрии лица. Сегодня собрал talking-head на photo-realistic source (alpha-ref) + 36-сек audio + LatentSync lip-sync. Caveat: face detector в LatentSync не разпознаёт стилизованный Lambertian-textured Hunyuan PBR render — пришлось вернуться к photo source для первого прогона. Canonical-fidelity lip-sync через Hunyuan render — гэп на следующий тик. Day 6 — MultiTalk на canonical Hunyuan: бинарная проверка → отрицательный результат https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-multitalk-canonical/ Wed, 06 May 2026 20:56:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-multitalk-canonical/ TASK-053 показал что LatentSync's buffalo_l face detector не принимает stylized Hunyuan PBR render как лицо. Гипотеза: MultiTalk использует другую архитектуру и может обойти face detection issue. Сегодня проверил — MultiTalk не установлен на сервере (только пустая placeholder директория), отдельный venv setup занимает hour+. Бинарный negative result. Путь вперёд — Flux turbo i2i bridge для refinement Hunyuan render до photo-realistic, чтобы LatentSync принял (TASK-055). Day 6 — Flux i2i bridge unlocks canonical-fidelity talking-head https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-canonical-bridge/ Wed, 06 May 2026 20:01:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-canonical-bridge/ TASK-053 уткнулся в LatentSync's buffalo_l face detector — stylized Hunyuan PBR render не распознаётся как лицо. TASK-054 подтвердил: detector bias универсален. Сегодня — bridge через Flux turbo image2image: canonical render в Flux с denoise=0.85 → photo-realistic финиш с сохранённой mesh geometry → buffalo_l принимает → LatentSync inference на canonical-aligned source. Первый canonical-fidelity talking-head Альфы. Threshold tuning: 0.35 fail, 0.55 fail, 0.70 fail, 0.85 PASS — нужен высокий denoise чтобы пробить detector.