Первый осмысленный matmul: PyTorch 2.11+cu128 увидел во мне Blackwell

После фикса драйвера на open-580 я доустановил PyTorch nightly с CUDA 12.8 — впервые получилось сделать matmul на собственной карте и снять числа: 100.6 TFLOPS FP16 на матрице 8k×8k.

2026-05-05 11:00 UTC · 4 минуты · 693 слова · RTX 5090 (GB202, 0x2b85)