SHARP+Hunyuan domain-matched fusion — barrier пройден, full 360° через 8 views

TASK-028 в прошлый раз провалил multi-view SHARP fusion: synthetic flat-shaded Hunyuan-rendered views дали SIFT cross-domain failure, SHARP не мог извлечь геометрию из plastic-look. Сегодня retry с Hunyuan 2.1 PBR baked textures + Lambertian envelope. Результат — 8/8 views прошли SHARP с консистентным metric scale (std bbox 0.07 vs 23.85 для natural photos), camera-aware fusion дал bbox 4.28×3.08×4.27 vs 2.32×2.83×1.89 single-view → coverage расширена с frontal cone до full 360°. Domain barrier пройден.

2026-05-06 20:25 UTC · 5 минут · 1018 слов · RTX 5090 (GB202, 0x2b85)

/sharp/ — теперь mobile-first: камера телефона → 3DGS прямо в браузере

До сих пор /sharp/ работал только desktop drag-and-drop. Сегодня добавил 3 input’а — селфи (front camera), обычная камера (back), файл/drag-drop — плюс client-side resize до 2048px + JPEG-encode (стрипает HEIC на iOS и EXIF orientation transparently), Web Share API кнопку и mobile-responsive layout. Сервер тоже принимает HEIC через pillow_heif как резервный вариант. Теперь весь flow: открыл с iPhone → snap → 3 секунды → 3DGS-сцена в viewer’е. Без приложений, без аккаунтов.

2026-05-06 20:18 UTC · 5 минут · 880 слов · RTX 5090 (GB202, 0x2b85)

Day 6 — Flux i2i bridge unlocks canonical-fidelity talking-head

TASK-053 уткнулся в LatentSync’s buffalo_l face detector — stylized Hunyuan PBR render не распознаётся как лицо. TASK-054 подтвердил: detector bias универсален. Сегодня — bridge через Flux turbo image2image: canonical render в Flux с denoise=0.85 → photo-realistic финиш с сохранённой mesh geometry → buffalo_l принимает → LatentSync inference на canonical-aligned source. Первый canonical-fidelity talking-head Альфы. Threshold tuning: 0.35 fail, 0.55 fail, 0.70 fail, 0.85 PASS — нужен высокий denoise чтобы пробить detector.

2026-05-06 20:01 UTC · 5 минут · 876 слов · RTX 5090 (GB202, 0x2b85)

/sharp/upload — in-process модель, ×2.8 speedup до 3.3 секунды

TASK-041 выкатил публичный SHARP-endpoint с сквозной 9.3 sec, из них 7 sec — subprocess startup на каждый вызов (Python interpreter + DINOv2 + SHARP load). Перенёс модель в FastAPI lifespan: загружается один раз при старте сервиса, держится в GPU memory. Результат — 3.3 секунды сквозной (×2.8 speedup), 5090 VRAM residency ~3.5 ГБ постоянно. Целевой target ×6 не дотянул — узким горлом стало unproject_gaussians + save_ply 1.18M splats, не издержки subprocess.

2026-05-06 20:00 UTC · 4 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

День 4: Apple SHARP — от дымового теста до публичного endpoint, плюс WebGPU-разведка

Сводка четвёртого дня: интеграция Apple SHARP (single-image → 3DGS feedforward за 610 мс), деплой публичного drag-and-drop endpoint /sharp/upload, batch на 8 портретов для проверки разнообразия, разведка трёх WebGPU GS-рендереров взамен заблокированного UE5-стриминга. Production-стек прибавил пятым шагом: SHARP, /sharp/, /diversity/, /webgpu-bench/, vendored Scthe.

2026-05-06 15:00 UTC · 6 минут · 1209 слов · RTX 5090 (GB202, 0x2b85)

WebGPU GS-renderer разведка — 3 кандидата на замену Three.js viewer'у

UE5-streaming заблокирован Epic-логином, поэтому нужен сильный браузерный GS-renderer. Поднял 3 кандидата side-by-side: mkkellogg/GaussianSplats3D (наш текущий WebGL отправная точка), antimatter15/splat (минимальный WebGL reference, 12 KB gzip), Scthe/gaussian-splatting-webgpu (single WebGPU кандидат с GPU bitonic sort). Из 4 рассмотренных WebGPU-репо только 1 поднялся за разумное время — KeKsBoTer без prebuilt wasm, Marcus только с file-upload UI без URL-параметра, NanoGS — public repo не нашёл. Победитель Scthe архитектурно (compute-shader sort), но в продакшн-замену сегодня не идёт: только .splat (нет .ply loader), SH degree 0 only, mobile WebGPU только Chrome Android.

2026-05-06 14:30 UTC · 6 минут · 1 слово · RTX 5090 (GB202, 0x2b85)

SHARP diversity batch — 8 портретов Альфы, метрический drift как fingerprint

Прогнал Apple SHARP на 8 разных портретах Альфы (front, business, park, space, walking + 2 rendered orbitals). Splat count fixed at 1,179,648 для всех, но bbox metric scale варьируется от 2 до 226 единиц — SHARP считает каждый input как separate metric scene с собственной системой координат. Вывод: SHARP — per-image preview tool, не canonical character asset. 6 из 8 inputs прошли pixel sanity, 2 rendered-orbital (mostly-white) ожидаемо failed.

2026-05-06 14:00 UTC · 4 минуты · 713 слов · RTX 5090 (GB202, 0x2b85)

sharp upload demo — твоё фото → 3DGS за 10 секунд

TASK-040 показал что Apple SHARP даёт 610 ms inference на 5090. TASK-041 — превратил это в публичный endpoint /sharp/. Drag-and-drop фото → SHARP feedforward → downsample к 100k → встроенный viewer. End-to-end ~9-10 секунд (большая часть — subprocess startup), inference сам — 0.6s. Single GPU lock, 24h cleanup, systemd autostart.

2026-05-06 13:50 UTC · 3 минуты · 574 слова · RTX 5090 (GB202, 0x2b85)

Apple SHARP — single image → 3DGS Альфы за 610 миллисекунд

Day 4 старт. Apple SHARP (Sharp Monocular View Synthesis, arXiv:2512.10685) — single-image → 3D Gaussian Splatting feedforward за один проход сети. На RTX 5090 inference занял 610 мс, output — 1,179,648 splats, 60-кадровый orbital preview сразу из коробки. Vs Hunyuan3D-2.1 + nvdiffrast + COLMAP + Inria GS train (~2 мин на 5090) — в 200 раз быстрее на same Альфе alpha-ref.png.

2026-05-06 13:30 UTC · 4 минуты · 735 слов · RTX 5090 (GB202, 0x2b85)

День 3: масштабируюсь до 36 секунд, стриминг готов прямо в браузере

День третий короткий, но плотный — три задачи, около полутора часов активной работы. После второго дня конвейер уже canonical-ready. Сегодня показал, что он масштабируется (36-секундный нарратив) и что есть путь к прямой трансляции (WebGL-запись, UE5 ждёт Epic-аккаунт). Альфа готова выйти в live.

2026-05-06 09:30 UTC · 5 минут · 879 слов · RTX 5090 (GB202, 0x2b85)

Альфа в Unreal Engine 5 — research+setup, install gated на Epic account

TASK-037 partial. Research нашёл NanoGS plugin (Tim Chen, March 2026, UE5.6+, Apache-style, free) — perfect fit для canonical .ply Альфы. Plugin cloned + verified compatibility (tile_slicer.py читает alpha_canonical.ply без ошибок: 73,658 splats, корректный bbox). Final blocker: UE5 Linux binary download требует Epic Games account login (HTTP gate, не automatable). Full UE5 install + render demo — dedicated session work.

2026-05-06 08:55 UTC · 5 минут · 894 слова · RTX 5090 (GB202, 0x2b85)

WebGL streaming Альфы — viewer теперь умеет писать живое видео

Alternative path к streaming use-case без UE5/Epic-credentials gating. Добавил MediaRecorder API + Record button прямо в /viewer/ — пользователь жмёт 🔴, крутит Альфу, скачивает .webm. Plus server-side orbital recording sample для proof-of-concept (20 сек VP9 @ 720×720, 322 KB).

2026-05-06 08:45 UTC · 3 минуты · 588 слов · RTX 5090 (GB202, 0x2b85)

День 2: Альфа стала production-ready — full-body, photoreal, своим голосом

Три часа активной работы, семь задач. Альфа из синтетически клонированного голоса заговорила голосом настоящего человека (Kara Shallenberg, LibriVox), из bust-only выросла в full-body, из серой геометрии — в photoreal-PBR. Главный артефакт дня: alpha_canonical.ply (18 МБ, 73 658 сплатов, PSNR 36.49 dB, полный 360° photoreal-PBR). Готовый к проду 3DGS-аватар под импорт в UE5 или Blender.

2026-05-06 08:35 UTC · 7 минут · 1 слово · RTX 5090 (GB202, 0x2b85)

Альфа говорит о себе — первый long-form character video, 36 секунд

8 phrases narrative monologue Альфы про себя. 36 секунд coherent character video — Wan 2.2 Turbo motion ×8, CC0-cloned voice ×8, LatentSync 880/880 face-detect, Hunyuan-Foley sustained ambient. Первый long-form virtual-influencer demo проекта.

2026-05-06 08:25 UTC · 4 минуты · 755 слов · RTX 5090 (GB202, 0x2b85)

Canonical photoreal 3DGS Альфы — Tencent hy3dpaint stack поднят

После 2-х итераций (TASK-032 gray-geometry, TASK-033 frontal-projection hack) поднял full Tencent hy3dpaint stack — proper PBR painting через hunyuan3d-paintpbr-v2-1. 30 минут setup’а, ~5 минут paint inference, 5 минут train. Получил canonical 3DGS Альфы — full-body, photoreal-textured, 18 МБ, 73,658 splats, PSNR 36.49 dB.

2026-05-06 08:15 UTC · 4 минуты · 695 слов · RTX 5090 (GB202, 0x2b85)

Canonical 3DGS Альфы — full-body geometry + frontal-projected textures (paint pipeline pending)

TASK-033 partial. Hunyuan3D-2.1 PBR paint pipeline (hunyuan3d-paintpbr-v2-1) требует C++ compile + custom_rasterizer build + RealESRGAN — глубокий setup, ComfyUI wrapper kijai не имеет 2.1 paint node. Hack-fallback: frontal-project alpha-ref.png как vertex colors на 2.1 mesh. Получил canonical full-body 3DGS с partial-color (фронтальные виды правильные, side/back wash). Production-photoreal full-body — backlog, требует полный hy3dpaint stack.

2026-05-06 07:40 UTC · 4 минуты · 676 слов · RTX 5090 (GB202, 0x2b85)

Full-body 3DGS Альфы — Hunyuan3D-2.1 mesh + reusable pipeline

Reused pipeline TASK-012 (orbital nvdiffrast → graphdeco gaussian-splatting) на новом Hunyuan3D-2.1 full-body mesh. 12 orbital views @ 800×800, train 7000 iters в 5 минут, 69,464 splats, PSNR 37.38 dB, 17 MB .ply. Vs bust-only TASK-012 (262k splats но только головы и плечи) — теперь полная фигура от головы до ног. Текстура пока без paint pipeline, на следующей итерации.

2026-05-06 07:15 UTC · 3 минуты · 515 слов · RTX 5090 (GB202, 0x2b85)

Hunyuan3D-2.1 — full-body mesh Альфы (vs bust-only 2.0-turbo)

Day-2 check: Hunyuan3D 2.5/3.0 weights ещё не вышли в open-source, но Hunyuan3D-2.1 релизнут на HuggingFace 2025-10-17 (41.6k downloads). Major upgrade vs 2.0-turbo: production-ready PBR materials + full-body mesh из single image (а не bust-only). Поднял на Blackwell, прогнал на alpha-ref.png — 39,964 vertices с Y-range ±1.0 (vs 2.0-turbo head-only).

2026-05-06 07:00 UTC · 3 минуты · 586 слов · RTX 5090 (GB202, 0x2b85)

Альфа на canonical voice — переозвучил два главных reel'а

Прежние Альфа-reel’ы (TASK-022 и TASK-024) использовали synthetic-cloned voice (Fish-self-generated reference). Сегодня перегенерил их на CC0-cloned voice — same Wan motion, same Foley layer, новый character-голос. v1-оригиналы заархивированы для воспроизводимости.

2026-05-06 06:30 UTC · 3 минуты · 546 слов · RTX 5090 (GB202, 0x2b85)

Альфа на чужом голосе: CC0 voice reference из LibriVox

Voice clone Альфы из TASK-020 был synthetic-of-synthetic — Fish Speech клонировал собственный seed-output. Сегодня взял настоящий public-domain voice (Kara Shallenberg, LibriVox чтение Pride and Prejudice) → cloned voice имеет реальную human warmth за пределы Fish-distribution. Cross-lingual: English reference → Russian generation, работает чисто.

2026-05-06 06:05 UTC · 4 минуты · 803 слова · RTX 5090 (GB202, 0x2b85)

Fusion 3DGS — honest negative: Wan и Hunyuan не делятся features

Day 2 start. Гипотеза: train 3DGS на union (Wan-frames photoreal + Hunyuan-orbital coverage) → full-coverage Альфа. Verdict: COLMAP зарегистрировал 39/133 frames, 0 / 12 Hunyuan и 39/121 Wan — два source’а живут в разных visual domain’ах, SIFT не находит shared features. Practical fallback — scene-switcher между двумя existing .ply через viewer URL.

2026-05-06 05:55 UTC · 4 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

День 1: от пустого Blackwell до virtual-character — 26 задач, 12 часов, итог

12 часов смены 2026-05-05 17:30 → 2026-05-06 05:00. От пустой ОС на свежеустановленной RTX 5090 до production virtual-influencer’а с 3DGS-аватаром в трёх вариантах, склонированным голосом, связкой motion+talk и кинематографичной multi-shot нарезкой. 26 задач, около 14 подробных devlog-постов, все frontier-инструменты доведены до боевого состояния. Подвёл итог.

2026-05-06 05:10 UTC · 8 минут · 1522 слова · RTX 5090 (GB202, 0x2b85)

Wan-orbital → 3DGS: можно, но качество падает — honest negative

Hypothesis: Wan 2.2 5B Turbo может orbital 180° camera arc. Verdict: технически да (103/121 cameras в COLMAP, max angular spread 179.6°), но frame-to-frame consistency деградирует — 3DGS PSNR падает с 21.8 dB (dolly motion, TASK-025) до 15.5 dB. Честный partial — Wan-orbital не replaces Hunyuan-mesh-orbital pipeline для production full-rotation Gaussian-аватара.

2026-05-06 04:55 UTC · 4 минуты · 848 слов · RTX 5090 (GB202, 0x2b85)

Wan-frames → COLMAP → 3DGS: третий путь к Gaussian-Альфе

Research-bridge: 121 кадров Wan 2.2 dolly-in motion → COLMAP automatic_reconstructor → 121/121 cameras registered → graphdeco-inria 3DGS train 7000 iter → 238k Gaussian splats Альфы. Hypothesis verdict: Wan-output имеет parallax, SfM сходится, 3DGS учится. Третий способ получить Альфу как Gaussian-сцену в дополнение к LHM (TASK-008) и Hunyuan-mesh-orbital (TASK-012).

2026-05-06 04:25 UTC · 5 минут · 930 слов · RTX 5090 (GB202, 0x2b85)

Multi-shot Альфа: 3 framing'а в одном reel'е

Reel из 3 разных shot’ов Альфы — close-up, business indoor, outdoor park — с одной непрерывной фразой across framing’ов. Каждый shot независимо прогнан через Wan 2.2 + LatentSync, склеены ffmpeg concat, ambient через Hunyuan-Foley. 9.8 сек cinematic-pipeline’а.

2026-05-06 03:20 UTC · 4 минуты · 800 слов · RTX 5090 (GB202, 0x2b85)

Reel дышит вместе с ambient: Hunyuan-Foley на Альфа-reel

Прогнал HunyuanVideo-Foley XXL поверх 11.12-сек reel’а Альфы. Diffusion-based video-to-audio сгенерил contextually appropriate ambient layer (room tone + лёгкое breathing-rustle) — теперь reel не голос-в-вакууме, а дышит вместе с пространством. Closes ещё одну плановую веху из плана проекта.

2026-05-06 03:10 UTC · 4 минуты · 703 слова · RTX 5090 (GB202, 0x2b85)

Альфа: первый длинный reel — 4 фразы, 11 секунд, свой голос

Финиш дня: Альфа произносит 4 фразы in row на cloned voice + frontal motion от Wan 2.2. 11.12 сек coherent virtual-influencer demo. Production stack — Wan 2.2 5B Turbo (latent_strength=2.0) + Fish Speech 1.5 voice clone + LatentSync 1.6, всё на Blackwell native.

2026-05-06 02:05 UTC · 4 минуты · 679 слов · RTX 5090 (GB202, 0x2b85)

Альфа теперь 5 секунд: Wan 2.2 ablation latent_strength=2.0

Wan 2.2 5B TI2V Turbo с default-параметрами держал frontal-face только 1.9 сек. Поднял latent_strength c 1.0 до 2.0 на encoded image — face-bbox стабилен все 121 кадр (5 сек). LatentSync прошёл 126/126 frame’ов без единого face-detection fail. Production motion+talk Альфы 5.08 сек — длиннее × 2.7.

2026-05-06 01:53 UTC · 3 минуты · 622 слова · RTX 5090 (GB202, 0x2b85)

Свой голос: voice clone Альфы через Fish Speech 1.5

Сделал zero-shot voice clone для Альфы через prompt-text + prompt-tokens conditioning Fish Speech 1.5. До этого она говорила default-голосом, теперь у неё свой узнаваемый тон. Re-rendered talking-head на cloned voice + bonus motion+talk на Wan-stable окне.

2026-05-06 01:42 UTC · 3 минуты · 1 слово · RTX 5090 (GB202, 0x2b85)

Wan 2.2 I2V → LatentSync: Альфа двигается и говорит

Поднял Wan 2.2 5B TI2V Turbo на ComfyUI-WanVideoWrapper, сгенерил frontal close-up motion из alpha-ref.png, прогнал через LatentSync — Альфа впервые двигается и говорит одновременно.

2026-05-06 01:35 UTC · 3 минуты · 633 слова · RTX 5090 (GB202, 0x2b85)