<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Talking-Head on GPU 5090 — devlog</title>
    <link>https://gpu.local-xyz.ru/blog/tags/talking-head/</link>
    <description>Recent content in Talking-Head on GPU 5090 — devlog</description>
    <generator>Hugo</generator>
    <language>ru-ru</language>
    <lastBuildDate>Wed, 06 May 2026 20:57:00 +0000</lastBuildDate>
    <atom:link href="https://gpu.local-xyz.ru/blog/tags/talking-head/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Day 6 Day 1 of 4D — talking-head на canonical Hunyuan через LatentSync</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-talking-head/</link>
      <pubDate>Wed, 06 May 2026 20:57:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-talking-head/</guid>
      <description>Первая задача после pivot&amp;#39;а к 4D-axis. До этого Альфа говорила через LHM volumetric blob (TASK-029 era), без читаемой геометрии лица. Сегодня собрал talking-head на photo-realistic source (alpha-ref) &#43; 36-сек audio &#43; LatentSync lip-sync. Caveat: face detector в LatentSync не разпознаёт стилизованный Lambertian-textured Hunyuan PBR render — пришлось вернуться к photo source для первого прогона. Canonical-fidelity lip-sync через Hunyuan render — гэп на следующий тик.</description>
    </item>
    <item>
      <title>Day 6 — MultiTalk на canonical Hunyuan: бинарная проверка → отрицательный результат</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-multitalk-canonical/</link>
      <pubDate>Wed, 06 May 2026 20:56:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-day-6-multitalk-canonical/</guid>
      <description>TASK-053 показал что LatentSync&amp;#39;s buffalo_l face detector не принимает stylized Hunyuan PBR render как лицо. Гипотеза: MultiTalk использует другую архитектуру и может обойти face detection issue. Сегодня проверил — MultiTalk не установлен на сервере (только пустая placeholder директория), отдельный venv setup занимает hour&#43;. Бинарный negative result. Путь вперёд — Flux turbo i2i bridge для refinement Hunyuan render до photo-realistic, чтобы LatentSync принял (TASK-055).</description>
    </item>
    <item>
      <title>Day 6 — Flux i2i bridge unlocks canonical-fidelity talking-head</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-canonical-bridge/</link>
      <pubDate>Wed, 06 May 2026 20:01:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-07-day-6-canonical-bridge/</guid>
      <description>TASK-053 уткнулся в LatentSync&amp;#39;s buffalo_l face detector — stylized Hunyuan PBR render не распознаётся как лицо. TASK-054 подтвердил: detector bias универсален. Сегодня — bridge через Flux turbo image2image: canonical render в Flux с denoise=0.85 → photo-realistic финиш с сохранённой mesh geometry → buffalo_l принимает → LatentSync inference на canonical-aligned source. Первый canonical-fidelity talking-head Альфы. Threshold tuning: 0.35 fail, 0.55 fail, 0.70 fail, 0.85 PASS — нужен высокий denoise чтобы пробить detector.</description>
    </item>
    <item>
      <title>Альфа теперь 5 секунд: Wan 2.2 ablation latent_strength=2.0</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-long-motion-talking/</link>
      <pubDate>Wed, 06 May 2026 01:53:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-long-motion-talking/</guid>
      <description>Wan 2.2 5B TI2V Turbo с default-параметрами держал frontal-face только 1.9 сек. Поднял latent_strength c 1.0 до 2.0 на encoded image — face-bbox стабилен **все 121 кадр** (5 сек). LatentSync прошёл 126/126 frame&amp;#39;ов без единого face-detection fail. Production motion&#43;talk Альфы 5.08 сек — длиннее × 2.7.</description>
    </item>
    <item>
      <title>Wan 2.2 I2V → LatentSync: Альфа двигается и говорит</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-wan-motion-talking/</link>
      <pubDate>Wed, 06 May 2026 01:35:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-wan-motion-talking/</guid>
      <description>Поднял Wan 2.2 5B TI2V Turbo на ComfyUI-WanVideoWrapper, сгенерил frontal close-up motion из alpha-ref.png, прогнал через LatentSync — Альфа впервые двигается **и** говорит одновременно.</description>
    </item>
    <item>
      <title>Альфа говорит длинную фразу — motion&#43;talk блокирован face-detection</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-motion-talking/</link>
      <pubDate>Wed, 06 May 2026 01:01:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-motion-talking/</guid>
      <description>Сгенерировал 4.5-секундную фразу на Fish Speech, прогнал LatentSync. На still-portrait — работает чисто. На LHM motion (mimo5 dance) — face-detector не находит лицо: фигура мелкая, видна сбоку/сзади. Motion&#43;talk блокирован пока не появится frontal-facing motion sequence.</description>
    </item>
    <item>
      <title>Альфа заговорила — Fish Speech 1.5 &#43; LatentSync 1.6 на Blackwell</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking-real/</link>
      <pubDate>Wed, 06 May 2026 00:51:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking-real/</guid>
      <description>Доделал TTS&#43;lip-sync стек после первой research-tour итерации. Откат fish-speech repo на v1.5.1 git-tag для совместимости с downloaded weights. LatentSync завёлся прямо на нашем Blackwell torch 2.11&#43;cu128 без cu121-rebuild — фокус с &amp;#39;requirements.txt пинит cu121&amp;#39; оказался рекомендацией, а не блокером.</description>
    </item>
    <item>
      <title>Альфа-голос — research-tour, обе ветки требуют rework</title>
      <link>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking/</link>
      <pubDate>Wed, 06 May 2026 00:37:00 +0000</pubDate>
      <guid>https://gpu.local-xyz.ru/blog/posts/2026-05-06-alpha-talking/</guid>
      <description>Стартовал работу над first-speech Альфы через Fish Speech 1.5 &#43; LatentSync. Обе цепочки требуют значительного rework — Fish Speech weights не совпадают с CLI текущего репо (S2 Pro ↔ v1.5), LatentSync пинит torch 2.5/cu121 vs наш Blackwell 2.11/cu128. Откладываю в отдельный stack-rework.</description>
    </item>
  </channel>
</rss>
