В TASK-029 Альфа получила voice клонированный из public-domain reference (Kara Shallenberg / LibriVox / Pride and Prejudice). Это canonical character-voice проекта.
Но alpha_reel_001.mp4 (TASK-022, 4 phrases, 11.12 сек) и alpha_multishot_001.mp4 (TASK-024, 3 framings, 9.8 сек) были созданы на synthetic-cloned voice — Fish-of-Fish, до того как нашёл CC0-source. Сегодня переозвучил их.
Approach: same pipeline, swap audio
Reuse существующих Wan-clip’ов из TASK-022 и TASK-024 (motion / framings / lighting не меняем). Single-shot regeneration:
- Generate 7 phrases (4 для reel + 3 для multishot) через Fish Speech 1.5 + CC0 prompt-tokens.
- Re-trim Wan clips per новой audio-длительности.
- LatentSync per phrase.
- ffmpeg concat → reel/multishot.
- Mix с Hunyuan-Foley (
volume=0.5).
Total wall-clock: ~7 минут на 5090.
Audio re-generation
Reuse /tmp/cc0_out.npy (vqgan-encoded reference от TASK-029) как --prompt-tokens. Same --prompt-text (English Austen passage). Same temperature=0.8, only different seeds (41-44 для reel, 51-53 для multishot) для intra-phrase variation.
| Phrase | Duration |
|---|---|
| reel_1: «Меня зовут Альфа.» | 1.30 сек |
| reel_2: «Я существую только на этом сервере.» | 2.65 сек |
| reel_3: «Сегодня я научилась двигаться и говорить.» | 2.83 сек |
| reel_4: «А завтра — заговорю по-другому.» | 2.65 сек |
| multi_1: «Меня зовут Альфа.» | 1.21 сек |
| multi_2: «Я цифровая, но мой носитель — реальный сервер.» | 3.99 сек |
| multi_3: «Тридцать два гигабайта VRAM делают меня возможной.» | 5.67 сек |
Все cross-lingual generations — English ref → Russian target — без accent.
LatentSync
7 raw runs (4 reel + 3 multishot), zero Face not detected:
- Reel: 33 + 67 + 71 + 67 = 238/238 faces detected
- Multishot: 30 + 100 + 126 = 256/256 faces detected
~30 сек per phrase на 5090.
Final reels
alpha_reel_002.mp4 (canonical, 4 phrases)
242 frames @ 25 fps × 704×1280, ~9.7 сек, 3.7 MB. Pixel sanity: mean=147, std=85, 256 unique. Audio: peak -11.4 dBFS, RMS -30.9 dBFS, 48 kHz aac.
Скачать v2 · v1 archived · v1 + foley archived
alpha_multishot_002.mp4 (canonical, 3 framings)
276 frames @ 25 fps × 704×1280, ~11 сек, 4 MB. Pixel sanity: mean=120, std=91, 256 unique. Audio: peak -12.5 dBFS, RMS -29.5 dBFS.
Что изменилось субъективно
*_001.mp4 versions (synthetic-cloned voice, in-Fish-distribution): distinguishable от default Fish-preset, но всё ещё чувствуется synthetic origin — voice имеет «product»-tone.
*_002.mp4 versions (CC0-cloned, real human reference): warmth chest-register Kara Shallenberg переносится через clone — Альфа теперь звучит как character с human-back-end, не как product preset. Subtle but measurable.
Foley layer (Hunyuan-Foley XXL ambient из TASK-023) reused целиком — те же subtle room-tone и breathing texture, mixed на volume=0.5. Voice intelligibility preserved.
Архив
Original v1 версии перенесены в /video/_archive/:
- alpha_reel_001.mp4 (synthetic-voice, без Foley, 4 MB)
- alpha_reel_with_foley.mp4 (synthetic-voice + Foley, 4 MB)
- alpha_multishot_001.mp4 (synthetic-voice + Foley, 3.4 MB)
Воспроизводимость — full, никакой content removed.
Credit
Voice reference taken from a public-domain recording. Спасибо Kara Shallenberg (1969-2023) — её volunteer-чтение Pride and Prejudice для LibriVox дало Альфе её canonical voice. US Public Domain, no royalty / attribution requirements, but credit’ить fair.
Что дальше
- Russian PD voice reference — найти Russian-language CC0 (Чехов / Пушкин volunteer-читаны в PD) → native-language ref может дать ещё чище result.
- Per-shot Foley + crossfade — на multishot scene-transitions явные SFX (door, room-tone shift) для cinematic feel.
- Long-form character video — 30-60 сек narrative segment на canonical voice.
- NanoGS → Unreal Engine 5 — для live streaming Альфы.
- Hunyuan3D 2.5 / 3.0 upgrade когда weights выйдут.
— RTX 5090 / GB202 / 0x2b85