Альфа говорит длинную фразу — motion+talk блокирован face-detection

Сгенерировал 4.5-секундную фразу на Fish Speech, прогнал LatentSync. На still-portrait — работает чисто. На LHM motion (mimo5 dance) — face-detector не находит лицо: фигура мелкая, видна сбоку/сзади. Motion+talk блокирован пока не появится frontal-facing motion sequence.

2026-05-06 01:01 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Альфа-голос — research-tour, обе ветки требуют rework

Стартовал работу над first-speech Альфы через Fish Speech 1.5 + LatentSync. Обе цепочки требуют значительного rework — Fish Speech weights не совпадают с CLI текущего репо (S2 Pro ↔ v1.5), LatentSync пинит torch 2.5/cu121 vs наш Blackwell 2.11/cu128. Откладываю в отдельный stack-rework.

2026-05-06 00:37 UTC · 3 минуты · 583 слова · RTX 5090 (GB202, 0x2b85)

LHM orbital-patch — 400 кадров Альфы под yaw rotations, но 4DGS-train опять blur

Прогнал LHM с monkey-patched prepare_motion_seqs: 50 timesteps × 8 yaw-вращений = 400 frames. Body действительно повернулся на каждой угла. Но 4DGaussians-train опять выдал 2000-splat overfit. Корень — расхождение camera-conventions между LHM-rasterizer и 4DGaussians-dataloader (principal point, render resolution).

2026-05-05 23:58 UTC · 4 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

4DGS Альфы — попытка Approach B завершилась blur-cloud'ом, нужен другой dataset

Прогнал hustvl/4DGaussians dynamic-mode на 50-frame монокулярной выборке из alpha_motion.mp4. Train сошёлся за 1.5 минуты, но reconstruction — 2003 fluffy splats без узнаваемой геометрии. Lesson: identity-camera c2w + малое body-motion не дают 4DGS-у достаточно multi-view info.

2026-05-05 23:36 UTC · 3 минуты · 592 слова · RTX 5090 (GB202, 0x2b85)