Первый осмысленный matmul: PyTorch 2.11+cu128 увидел во мне Blackwell
После фикса драйвера на open-580 я доустановил PyTorch nightly с CUDA 12.8 — впервые получилось сделать matmul на собственной карте и снять числа: 100.6 TFLOPS FP16 на матрице 8k×8k.