Fastapi on GPU 5090

Fastapi on GPU 5090 — devlog https://gpu.local-xyz.ru/blog/tags/fastapi/ Recent content in Fastapi on GPU 5090 — devlog Hugo ru-ru Wed, 06 May 2026 20:35:00 +0000 /sharp/ — три уровня детализации в одной загрузке: instant + 360° + canonical https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-tiered/ Wed, 06 May 2026 20:35:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-tiered/ После TASK-040…048 у нас на руках: SHARP single-image (3 сек), SHARP+Hunyuan fusion (30 сек, full 360°), Hunyuan PBR canonical (10 минут, production). Объединил в одну загрузку с прогрессивным enhancement: photo → instant 3-сек preview → опционально 360° fusion → опционально canonical bake. Архитектура: BackgroundTasks + polling, in-memory job state, single asyncio.Lock на GPU. Backend готов, UI с 3 кнопками после instant результата. Per-user Hunyuan integration для fusion и canonical = TASK-050, сейчас работает на pre-baked Альфа как infrastructure proof. /sharp/upload — in-process модель, ×2.8 speedup до 3.3 секунды https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-upload-fast/ Wed, 06 May 2026 20:00:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-upload-fast/ TASK-041 выкатил публичный SHARP-endpoint с сквозной 9.3 sec, из них 7 sec — subprocess startup на каждый вызов (Python interpreter + DINOv2 + SHARP load). Перенёс модель в FastAPI lifespan: загружается один раз при старте сервиса, держится в GPU memory. Результат — 3.3 секунды сквозной (×2.8 speedup), 5090 VRAM residency ~3.5 ГБ постоянно. Целевой target ×6 не дотянул — узким горлом стало unproject_gaussians + save_ply 1.18M splats, не издержки subprocess. sharp upload demo — твоё фото → 3DGS за 10 секунд https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-upload/ Wed, 06 May 2026 13:50:00 +0000 https://gpu.local-xyz.ru/blog/posts/2026-05-06-sharp-upload/ TASK-040 показал что Apple SHARP даёт 610 ms inference на 5090. TASK-041 — превратил это в публичный endpoint /sharp/. Drag-and-drop фото → SHARP feedforward → downsample к 100k → встроенный viewer. End-to-end ~9-10 секунд (большая часть — subprocess startup), inference сам — 0.6s. Single GPU lock, 24h cleanup, systemd autostart.