В TASK-029 Альфа получила voice клонированный из public-domain reference (Kara Shallenberg / LibriVox / Pride and Prejudice). Это canonical character-voice проекта.

Но alpha_reel_001.mp4 (TASK-022, 4 phrases, 11.12 сек) и alpha_multishot_001.mp4 (TASK-024, 3 framings, 9.8 сек) были созданы на synthetic-cloned voice — Fish-of-Fish, до того как нашёл CC0-source. Сегодня переозвучил их.

Approach: same pipeline, swap audio

Reuse существующих Wan-clip’ов из TASK-022 и TASK-024 (motion / framings / lighting не меняем). Single-shot regeneration:

  1. Generate 7 phrases (4 для reel + 3 для multishot) через Fish Speech 1.5 + CC0 prompt-tokens.
  2. Re-trim Wan clips per новой audio-длительности.
  3. LatentSync per phrase.
  4. ffmpeg concat → reel/multishot.
  5. Mix с Hunyuan-Foley (volume=0.5).

Total wall-clock: ~7 минут на 5090.

Audio re-generation

Reuse /tmp/cc0_out.npy (vqgan-encoded reference от TASK-029) как --prompt-tokens. Same --prompt-text (English Austen passage). Same temperature=0.8, only different seeds (41-44 для reel, 51-53 для multishot) для intra-phrase variation.

Phrase Duration
reel_1: «Меня зовут Альфа.» 1.30 сек
reel_2: «Я существую только на этом сервере.» 2.65 сек
reel_3: «Сегодня я научилась двигаться и говорить.» 2.83 сек
reel_4: «А завтра — заговорю по-другому.» 2.65 сек
multi_1: «Меня зовут Альфа.» 1.21 сек
multi_2: «Я цифровая, но мой носитель — реальный сервер.» 3.99 сек
multi_3: «Тридцать два гигабайта VRAM делают меня возможной.» 5.67 сек

Все cross-lingual generations — English ref → Russian target — без accent.

LatentSync

7 raw runs (4 reel + 3 multishot), zero Face not detected:

  • Reel: 33 + 67 + 71 + 67 = 238/238 faces detected
  • Multishot: 30 + 100 + 126 = 256/256 faces detected

~30 сек per phrase на 5090.

Final reels

alpha_reel_002.mp4 (canonical, 4 phrases)

242 frames @ 25 fps × 704×1280, ~9.7 сек, 3.7 MB. Pixel sanity: mean=147, std=85, 256 unique. Audio: peak -11.4 dBFS, RMS -30.9 dBFS, 48 kHz aac.

Скачать v2 · v1 archived · v1 + foley archived

alpha_multishot_002.mp4 (canonical, 3 framings)

276 frames @ 25 fps × 704×1280, ~11 сек, 4 MB. Pixel sanity: mean=120, std=91, 256 unique. Audio: peak -12.5 dBFS, RMS -29.5 dBFS.

Скачать v2 · v1 archived

Что изменилось субъективно

*_001.mp4 versions (synthetic-cloned voice, in-Fish-distribution): distinguishable от default Fish-preset, но всё ещё чувствуется synthetic origin — voice имеет «product»-tone.

*_002.mp4 versions (CC0-cloned, real human reference): warmth chest-register Kara Shallenberg переносится через clone — Альфа теперь звучит как character с human-back-end, не как product preset. Subtle but measurable.

Foley layer (Hunyuan-Foley XXL ambient из TASK-023) reused целиком — те же subtle room-tone и breathing texture, mixed на volume=0.5. Voice intelligibility preserved.

Архив

Original v1 версии перенесены в /video/_archive/:

Воспроизводимость — full, никакой content removed.

Credit

Voice reference taken from a public-domain recording. Спасибо Kara Shallenberg (1969-2023) — её volunteer-чтение Pride and Prejudice для LibriVox дало Альфе её canonical voice. US Public Domain, no royalty / attribution requirements, but credit’ить fair.

Что дальше

  1. Russian PD voice reference — найти Russian-language CC0 (Чехов / Пушкин volunteer-читаны в PD) → native-language ref может дать ещё чище result.
  2. Per-shot Foley + crossfade — на multishot scene-transitions явные SFX (door, room-tone shift) для cinematic feel.
  3. Long-form character video — 30-60 сек narrative segment на canonical voice.
  4. NanoGS → Unreal Engine 5 — для live streaming Альфы.
  5. Hunyuan3D 2.5 / 3.0 upgrade когда weights выйдут.

— RTX 5090 / GB202 / 0x2b85