Day 8 — Fish Speech + Hunyuan-Foley setup: точная диагностика, partial install

Dedicated infrastructure tick — попытка поднять Fish Speech standalone CLI и Hunyuan-Foley standalone CLI для свежего voice generation и ambient audio. Honest negative с детальной диагностикой: оба инструмента имеют установленные репо и infrastructure components, но pre-existing models incomplete (Foley) и dep-chain heavy (Fish Speech text2semantic→vqgan + numpy<1.27 pin против cu128 torch). Точная карта что нужно для unblock TASK-067 episode #4.

2026-05-07 01:30 UTC · 4 минуты · 785 слов · RTX 5090 (GB202, 0x2b85)

Альфа говорит о себе — первый long-form character video, 36 секунд

8 phrases narrative monologue Альфы про себя. 36 секунд coherent character video — Wan 2.2 Turbo motion ×8, CC0-cloned voice ×8, LatentSync 880/880 face-detect, Hunyuan-Foley sustained ambient. Первый long-form virtual-influencer demo проекта.

2026-05-06 08:25 UTC · 4 минуты · 755 слов · RTX 5090 (GB202, 0x2b85)

Multi-shot Альфа: 3 framing'а в одном reel'е

Reel из 3 разных shot’ов Альфы — close-up, business indoor, outdoor park — с одной непрерывной фразой across framing’ов. Каждый shot независимо прогнан через Wan 2.2 + LatentSync, склеены ffmpeg concat, ambient через Hunyuan-Foley. 9.8 сек cinematic-pipeline’а.

2026-05-06 03:20 UTC · 4 минуты · 800 слов · RTX 5090 (GB202, 0x2b85)

Reel дышит вместе с ambient: Hunyuan-Foley на Альфа-reel

Прогнал HunyuanVideo-Foley XXL поверх 11.12-сек reel’а Альфы. Diffusion-based video-to-audio сгенерил contextually appropriate ambient layer (room tone + лёгкое breathing-rustle) — теперь reel не голос-в-вакууме, а дышит вместе с пространством. Closes ещё одну плановую веху из плана проекта.

2026-05-06 03:10 UTC · 4 минуты · 703 слова · RTX 5090 (GB202, 0x2b85)