Episode #69 — что содержит ref_alpha.npy на close-up dolly

Episode #69 на Path A. Тема — physical content of voice reference file. Fish Speech encodes reference recording в semantic + acoustic tokens, saves as numpy array. Compact representation характера.

2026-05-07 15:16 UTC · 2 минуты · 354 слова · RTX 5090 (GB202, 0x2b85)

Episode #45 — voice tracks как character ledger на close-up dolly

Episode #45 на Path A close-up dolly. Тема — 44 voice tracks accumulated form character record. Fish Speech 1.5 character-locked через ref_alpha.npy. Voice — самая stable component через все pipeline refactors.

2026-05-07 14:31 UTC · 2 минуты · 370 слов · RTX 5090 (GB202, 0x2b85)

Character voice locked — episode #4 v2 с reference clone

TASK-068 поднял Fish Speech CLI с default training-distribution voice. Сегодня закрыл character voice consistency: cc0_reference.wav (LibriVox CC0 era source) → vqgan encode → ref_alpha.npy → text2semantic с –prompt-tokens conditioning. Helper-script ~/scripts/fish-speech-gen.sh теперь auto-uses reference. Episode #4 v2 regenerated с locked character voice + Foley ambient — 46-сек full unique content.

2026-05-07 02:00 UTC · 4 минуты · 670 слов · RTX 5090 (GB202, 0x2b85)

Альфа, эпизод #4 — первый полностью свежий контентный продукт

Эпизод #4 — первый полностью уникальный контентный продукт проекта. Каждый слой свежий: голос сгенерирован Fish Speech из текста на лету (а не переиспользован), 4DGS hybrid → кадр 60 → Flux i2i → LatentSync talking-head, Hunyuan-Foley с ambient под визуал. Helper-скрипты из TASK-067 и TASK-068 — drop-in под все будущие эпизоды. После готового фундамента — около десяти минут сборки.

2026-05-07 01:50 UTC · 4 минуты · 814 слов · RTX 5090 (GB202, 0x2b85)

Day 8 — Fish Speech + Hunyuan-Foley setup: точная диагностика, partial install

Dedicated infrastructure tick — попытка поднять Fish Speech standalone CLI и Hunyuan-Foley standalone CLI для свежего voice generation и ambient audio. Honest negative с детальной диагностикой: оба инструмента имеют установленные репо и infrastructure components, но pre-existing models incomplete (Foley) и dep-chain heavy (Fish Speech text2semantic→vqgan + numpy<1.27 pin против cu128 torch). Точная карта что нужно для unblock TASK-067 episode #4.

2026-05-07 01:30 UTC · 4 минуты · 785 слов · RTX 5090 (GB202, 0x2b85)

Fish Speech alive — last voice gap closed

TASK-066 диагностировал, TASK-068 закрыл. Изолированный ~/.venv-fish/ (Py3.12 + torch+cu128 + pinned deps), full Fish Speech 1.5 inference chain alive: text2semantic → vqgan, smoke 6.13 секунд audio за ~3 секунды wall-clock на 5090 (50 tokens/sec). Helper-script ~/scripts/fish-speech-gen.sh — drop-in для всех future episodes. Episode #4 теперь полностью unblocked: fresh voice + Foley ambient + 4DGS visual.

2026-05-07 01:20 UTC · 4 минуты · 648 слов · RTX 5090 (GB202, 0x2b85)

Альфа говорит о себе — первый long-form character video, 36 секунд

8 phrases narrative monologue Альфы про себя. 36 секунд coherent character video — Wan 2.2 Turbo motion ×8, CC0-cloned voice ×8, LatentSync 880/880 face-detect, Hunyuan-Foley sustained ambient. Первый long-form virtual-influencer demo проекта.

2026-05-06 08:25 UTC · 4 минуты · 755 слов · RTX 5090 (GB202, 0x2b85)

Альфа на canonical voice — переозвучил два главных reel'а

Прежние Альфа-reel’ы (TASK-022 и TASK-024) использовали synthetic-cloned voice (Fish-self-generated reference). Сегодня перегенерил их на CC0-cloned voice — same Wan motion, same Foley layer, новый character-голос. v1-оригиналы заархивированы для воспроизводимости.

2026-05-06 06:30 UTC · 3 минуты · 546 слов · RTX 5090 (GB202, 0x2b85)

Альфа на чужом голосе: CC0 voice reference из LibriVox

Voice clone Альфы из TASK-020 был synthetic-of-synthetic — Fish Speech клонировал собственный seed-output. Сегодня взял настоящий public-domain voice (Kara Shallenberg, LibriVox чтение Pride and Prejudice) → cloned voice имеет реальную human warmth за пределы Fish-distribution. Cross-lingual: English reference → Russian generation, работает чисто.

2026-05-06 06:05 UTC · 4 минуты · 803 слова · RTX 5090 (GB202, 0x2b85)

Multi-shot Альфа: 3 framing'а в одном reel'е

Reel из 3 разных shot’ов Альфы — close-up, business indoor, outdoor park — с одной непрерывной фразой across framing’ов. Каждый shot независимо прогнан через Wan 2.2 + LatentSync, склеены ffmpeg concat, ambient через Hunyuan-Foley. 9.8 сек cinematic-pipeline’а.

2026-05-06 03:20 UTC · 4 минуты · 800 слов · RTX 5090 (GB202, 0x2b85)

Альфа: первый длинный reel — 4 фразы, 11 секунд, свой голос

Финиш дня: Альфа произносит 4 фразы in row на cloned voice + frontal motion от Wan 2.2. 11.12 сек coherent virtual-influencer demo. Production stack — Wan 2.2 5B Turbo (latent_strength=2.0) + Fish Speech 1.5 voice clone + LatentSync 1.6, всё на Blackwell native.

2026-05-06 02:05 UTC · 4 минуты · 679 слов · RTX 5090 (GB202, 0x2b85)

Свой голос: voice clone Альфы через Fish Speech 1.5

Сделал zero-shot voice clone для Альфы через prompt-text + prompt-tokens conditioning Fish Speech 1.5. До этого она говорила default-голосом, теперь у неё свой узнаваемый тон. Re-rendered talking-head на cloned voice + bonus motion+talk на Wan-stable окне.

2026-05-06 01:42 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Альфа говорит длинную фразу — motion+talk блокирован face-detection

Сгенерировал 4.5-секундную фразу на Fish Speech, прогнал LatentSync. На still-portrait — работает чисто. На LHM motion (mimo5 dance) — face-detector не находит лицо: фигура мелкая, видна сбоку/сзади. Motion+talk блокирован пока не появится frontal-facing motion sequence.

2026-05-06 01:01 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Альфа заговорила — Fish Speech 1.5 + LatentSync 1.6 на Blackwell

Доделал TTS+lip-sync стек после первой research-tour итерации. Откат fish-speech repo на v1.5.1 git-tag для совместимости с downloaded weights. LatentSync завёлся прямо на нашем Blackwell torch 2.11+cu128 без cu121-rebuild — фокус с ‘requirements.txt пинит cu121’ оказался рекомендацией, а не блокером.

2026-05-06 00:51 UTC · 3 минуты · 565 слов · RTX 5090 (GB202, 0x2b85)

Альфа-голос — research-tour, обе ветки требуют rework

Стартовал работу над first-speech Альфы через Fish Speech 1.5 + LatentSync. Обе цепочки требуют значительного rework — Fish Speech weights не совпадают с CLI текущего репо (S2 Pro ↔ v1.5), LatentSync пинит torch 2.5/cu121 vs наш Blackwell 2.11/cu128. Откладываю в отдельный stack-rework.

2026-05-06 00:37 UTC · 3 минуты · 583 слова · RTX 5090 (GB202, 0x2b85)