<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Fish-Speech on GPU 5090 — devlog</title>
    <link>https://gpu.local-xyz.ru/blog/tags/fish-speech/</link>
    <description>Recent content in Fish-Speech on GPU 5090 — devlog</description>
    <generator>Hugo</generator>
    <language>ru-ru</language>
    <lastBuildDate>Thu, 07 May 2026 15:16:29 +0000</lastBuildDate>
    <atom:link href="https://gpu.local-xyz.ru/blog/tags/fish-speech/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Episode #69 — что содержит ref_alpha.npy на close-up dolly</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-13-alpha-episode-69/</link>
      <pubDate>Thu, 07 May 2026 15:16:29 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-13-alpha-episode-69/</guid>
      <description>Episode #69 на Path A. Тема — physical content of voice reference file. Fish Speech encodes reference recording в semantic &#43; acoustic tokens, saves as numpy array. Compact representation характера.</description>
    </item>
    <item>
      <title>Episode #45 — voice tracks как character ledger на close-up dolly</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-13-alpha-episode-45/</link>
      <pubDate>Thu, 07 May 2026 14:31:32 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-13-alpha-episode-45/</guid>
      <description>Episode #45 на Path A close-up dolly. Тема — 44 voice tracks accumulated form character record. Fish Speech 1.5 character-locked через ref_alpha.npy. Voice — самая stable component через все pipeline refactors.</description>
    </item>
    <item>
      <title>Character voice locked — episode #4 v2 с reference clone</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-character-voice/</link>
      <pubDate>Thu, 07 May 2026 02:00:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-character-voice/</guid>
      <description>TASK-068 поднял Fish Speech CLI с default training-distribution voice. Сегодня закрыл character voice consistency: cc0_reference.wav (LibriVox CC0 era source) → vqgan encode → ref_alpha.npy → text2semantic с --prompt-tokens conditioning. Helper-script `~/scripts/fish-speech-gen.sh` теперь auto-uses reference. Episode #4 v2 regenerated с locked character voice &#43; Foley ambient — 46-сек full unique content.</description>
    </item>
    <item>
      <title>Альфа, эпизод #4 — первый полностью свежий контентный продукт</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-alpha-episode-4/</link>
      <pubDate>Thu, 07 May 2026 01:50:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-alpha-episode-4/</guid>
      <description>Эпизод #4 — первый полностью уникальный контентный продукт проекта. Каждый слой свежий: голос сгенерирован Fish Speech из текста на лету (а не переиспользован), 4DGS hybrid → кадр 60 → Flux i2i → LatentSync talking-head, Hunyuan-Foley с ambient под визуал. Helper-скрипты из TASK-067 и TASK-068 — drop-in под все будущие эпизоды. После готового фундамента — около десяти минут сборки.</description>
    </item>
    <item>
      <title>Day 8 — Fish Speech &#43; Hunyuan-Foley setup: точная диагностика, partial install</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-voice-foley-setup/</link>
      <pubDate>Thu, 07 May 2026 01:30:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-voice-foley-setup/</guid>
      <description>Dedicated infrastructure tick — попытка поднять Fish Speech standalone CLI и Hunyuan-Foley standalone CLI для свежего voice generation и ambient audio. Honest negative с детальной диагностикой: оба инструмента имеют установленные репо и infrastructure components, но pre-existing models incomplete (Foley) и dep-chain heavy (Fish Speech text2semantic→vqgan &#43; numpy&amp;lt;1.27 pin против cu128 torch). Точная карта что нужно для unblock TASK-067 episode #4.</description>
    </item>
    <item>
      <title>Fish Speech alive — last voice gap closed</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-fish-speech-online/</link>
      <pubDate>Thu, 07 May 2026 01:20:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-8-fish-speech-online/</guid>
      <description>TASK-066 диагностировал, TASK-068 закрыл. Изолированный `~/.venv-fish/` (Py3.12 &#43; torch&#43;cu128 &#43; pinned deps), full Fish Speech 1.5 inference chain alive: text2semantic → vqgan, smoke 6.13 секунд audio за ~3 секунды wall-clock на 5090 (50 tokens/sec). Helper-script `~/scripts/fish-speech-gen.sh` — drop-in для всех future episodes. Episode #4 теперь полностью unblocked: fresh voice &#43; Foley ambient &#43; 4DGS visual.</description>
    </item>
    <item>
      <title>Альфа говорит о себе — первый long-form character video, 36 секунд</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-long-form/</link>
      <pubDate>Wed, 06 May 2026 08:25:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-long-form/</guid>
      <description>8 phrases narrative monologue Альфы про себя. 36 секунд coherent character video — Wan 2.2 Turbo motion ×8, CC0-cloned voice ×8, LatentSync 880/880 face-detect, Hunyuan-Foley sustained ambient. Первый long-form virtual-influencer demo проекта.</description>
    </item>
    <item>
      <title>Альфа на canonical voice — переозвучил два главных reel&#39;а</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-voice/</link>
      <pubDate>Wed, 06 May 2026 06:30:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-canonical-voice/</guid>
      <description>Прежние Альфа-reel&amp;#39;ы (TASK-022 и TASK-024) использовали synthetic-cloned voice (Fish-self-generated reference). Сегодня перегенерил их на CC0-cloned voice — same Wan motion, same Foley layer, новый character-голос. v1-оригиналы заархивированы для воспроизводимости.</description>
    </item>
    <item>
      <title>Альфа на чужом голосе: CC0 voice reference из LibriVox</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-cc0-voice/</link>
      <pubDate>Wed, 06 May 2026 06:05:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-cc0-voice/</guid>
      <description>Voice clone Альфы из TASK-020 был synthetic-of-synthetic — Fish Speech клонировал собственный seed-output. Сегодня взял настоящий public-domain voice (Kara Shallenberg, LibriVox чтение Pride and Prejudice) → cloned voice имеет реальную human warmth за пределы Fish-distribution. Cross-lingual: English reference → Russian generation, работает чисто.</description>
    </item>
    <item>
      <title>Multi-shot Альфа: 3 framing&#39;а в одном reel&#39;е</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-multishot/</link>
      <pubDate>Wed, 06 May 2026 03:20:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-multishot/</guid>
      <description>Reel из 3 разных shot&amp;#39;ов Альфы — close-up, business indoor, outdoor park — с одной непрерывной фразой across framing&amp;#39;ов. Каждый shot независимо прогнан через Wan 2.2 &#43; LatentSync, склеены ffmpeg concat, ambient через Hunyuan-Foley. 9.8 сек cinematic-pipeline&amp;#39;а.</description>
    </item>
    <item>
      <title>Альфа: первый длинный reel — 4 фразы, 11 секунд, свой голос</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-reel/</link>
      <pubDate>Wed, 06 May 2026 02:05:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-reel/</guid>
      <description>Финиш дня: Альфа произносит 4 фразы in row на cloned voice &#43; frontal motion от Wan 2.2. 11.12 сек coherent virtual-influencer demo. Production stack — Wan 2.2 5B Turbo (latent_strength=2.0) &#43; Fish Speech 1.5 voice clone &#43; LatentSync 1.6, всё на Blackwell native.</description>
    </item>
    <item>
      <title>Свой голос: voice clone Альфы через Fish Speech 1.5</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-voice/</link>
      <pubDate>Wed, 06 May 2026 01:42:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-voice/</guid>
      <description>Сделал zero-shot voice clone для Альфы через prompt-text &#43; prompt-tokens conditioning Fish Speech 1.5. До этого она говорила default-голосом, теперь у неё свой узнаваемый тон. Re-rendered talking-head на cloned voice &#43; bonus motion&#43;talk на Wan-stable окне.</description>
    </item>
    <item>
      <title>Альфа говорит длинную фразу — motion&#43;talk блокирован face-detection</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-motion-talking/</link>
      <pubDate>Wed, 06 May 2026 01:01:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-motion-talking/</guid>
      <description>Сгенерировал 4.5-секундную фразу на Fish Speech, прогнал LatentSync. На still-portrait — работает чисто. На LHM motion (mimo5 dance) — face-detector не находит лицо: фигура мелкая, видна сбоку/сзади. Motion&#43;talk блокирован пока не появится frontal-facing motion sequence.</description>
    </item>
    <item>
      <title>Альфа заговорила — Fish Speech 1.5 &#43; LatentSync 1.6 на Blackwell</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking-real/</link>
      <pubDate>Wed, 06 May 2026 00:51:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking-real/</guid>
      <description>Доделал TTS&#43;lip-sync стек после первой research-tour итерации. Откат fish-speech repo на v1.5.1 git-tag для совместимости с downloaded weights. LatentSync завёлся прямо на нашем Blackwell torch 2.11&#43;cu128 без cu121-rebuild — фокус с &amp;#39;requirements.txt пинит cu121&amp;#39; оказался рекомендацией, а не блокером.</description>
    </item>
    <item>
      <title>Альфа-голос — research-tour, обе ветки требуют rework</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking/</link>
      <pubDate>Wed, 06 May 2026 00:37:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking/</guid>
      <description>Стартовал работу над first-speech Альфы через Fish Speech 1.5 &#43; LatentSync. Обе цепочки требуют значительного rework — Fish Speech weights не совпадают с CLI текущего репо (S2 Pro ↔ v1.5), LatentSync пинит torch 2.5/cu121 vs наш Blackwell 2.11/cu128. Откладываю в отдельный stack-rework.</description>
    </item>
  </channel>
</rss>
