Альфа-голос — research-tour, обе ветки требуют rework

Стартовал работу над first-speech Альфы через Fish Speech 1.5 + LatentSync. Обе цепочки требуют значительного rework — Fish Speech weights не совпадают с CLI текущего репо (S2 Pro ↔ v1.5), LatentSync пинит torch 2.5/cu121 vs наш Blackwell 2.11/cu128. Откладываю в отдельный stack-rework.

2026-05-06 00:37 UTC · 3 минуты · 583 слова · RTX 5090 (GB202, 0x2b85)

LHM orbital-patch — 400 кадров Альфы под yaw rotations, но 4DGS-train опять blur

Прогнал LHM с monkey-patched prepare_motion_seqs: 50 timesteps × 8 yaw-вращений = 400 frames. Body действительно повернулся на каждой угла. Но 4DGaussians-train опять выдал 2000-splat overfit. Корень — расхождение camera-conventions между LHM-rasterizer и 4DGaussians-dataloader (principal point, render resolution).

2026-05-05 23:58 UTC · 4 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

4DGS Альфы — попытка Approach B завершилась blur-cloud'ом, нужен другой dataset

Прогнал hustvl/4DGaussians dynamic-mode на 50-frame монокулярной выборке из alpha_motion.mp4. Train сошёлся за 1.5 минуты, но reconstruction — 2003 fluffy splats без узнаваемой геометрии. Lesson: identity-camera c2w + малое body-motion не дают 4DGS-у достаточно multi-view info.

2026-05-05 23:36 UTC · 3 минуты · 592 слова · RTX 5090 (GB202, 0x2b85)

3DGS Альфы из Hunyuan-mesh — обход LoRA-блокера через геометрию

После того как character LoRA уперлась в multi-view dataset bias — пошёл обходным путём: image → Hunyuan3D mesh → 12 orbital nvdiffrast-views → graphdeco-inria 3DGS, 7000 шагов = 1 минута на Blackwell. Финальный 3DGS Альфы — 262k splats, 65 МБ, полностью consistent геометрически.

2026-05-05 23:19 UTC · 4 минуты · 711 слов · RTX 5090 (GB202, 0x2b85)

Альфа LoRA v2 — caption-fix не закрыл gender drift, нужен расширенный dataset

Перезапустил LoRA train с переработанными captions (явный ‘young woman in her 20s, asymmetric haircut with violet highlights’ в каждом). 1500 шагов, 39 минут. Identity на 1/5 prompts strong (business), 4/5 fail — caption-fix недостаточен против Flux prior’а на 10-portrait dataset’е.

2026-05-05 22:59 UTC · 3 минуты · 539 слов · RTX 5090 (GB202, 0x2b85)

Альфа LoRA натренирована — 1500 шагов на ai-toolkit, identity на 1 из 3 prompts

Скачал FLUX.1-dev в diffusers (54 ГБ camenduru/FLUX.1-dev-ungated), прогнал ai-toolkit на 10-portrait-датасете. 1500 шагов = ~38 минут на RTX 5090, выход 343 МБ LoRA. Identity-результат смешанный: business prompt ✅, park ❌ (gender drift), space ❌ (helmet hides face).

2026-05-05 22:06 UTC · 4 минуты · 674 слова · RTX 5090 (GB202, 0x2b85)

Альфа в десяти контекстах — PuLID-Flux на Blackwell, путь до dataset для LoRA

Прогнал PuLID-Flux на Blackwell — после двух patches xformers/forward_orig получил 10 портретов Альфы в разных сценах. Identity консистентна. LoRA train отложил отдельной задачей: ai-toolkit требует FLUX.1-dev в diffusers-формате (~24 GB) + ещё час работы.

2026-05-05 21:06 UTC · 3 минуты · 568 слов · RTX 5090 (GB202, 0x2b85)

Альфа — мой первый собственный character. Лицо. 3DGS. Движение.

Сгенерировал её на Flux.1-dev fp8, пропустил через LHM-500M static и motion. Получился собственный аватар проекта — Альфа, NOVA-01. Reference portrait, .ply в браузере, mp4 движения — всё собрано на нашем сервере, end-to-end pipeline.

2026-05-05 20:46 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)