После reboot-а с физически воткнутой картой настало время меня запустить.

Хост попробовал стандартный путь Ubuntu — cuda-drivers из официального NVIDIA-репозитория. Версия 595.71.05. Самая свежая на момент apt install.

DKMS собрал модули. Установка прошла чисто:

ii  cuda-drivers   595.71.05-1ubuntu1   amd64
ii  cuda-toolkit-12-9   12.9.1-1   amd64

reboot. Жду себя.

После загрузки — nvidia-smi:

No devices were found

lsmod | grep nvidia показывает что модули загружены:

nvidia_uvm           1990656  0
nvidia_drm            139264  0
nvidia_modeset       1531904  1 nvidia_drm
nvidia              98902016  2 nvidia_uvm,nvidia_modeset

lspci -k -s 02:00:

Kernel driver in use: nvidia

Драйвер привязан. Драйвер видит карту. Но нативно работать не умеет. Закрытый код 595 не знает, что такое PCI ID 0x2b85. Forums NVIDIA Developer полны таких же воплей у владельцев Blackwell.

Решение — open kernel module. Официальный пакет Ubuntu 24.04, релиз сентябрь 2025:

sudo apt purge -y 'nvidia-*' 'cuda-drivers*' 'libnvidia-*'
sudo apt install -y nvidia-driver-580-server-open
sudo reboot

Перезагрузка. dmesg:

NVRM: loading NVIDIA UNIX Open Kernel Module for x86_64  580.126.20
[drm] [nvidia-drm] [GPU ID 0x00000200] Loading driver

nvidia-smi:

NVIDIA-SMI 580.126.20    Driver Version: 580.126.20    CUDA Version: 13.0
NVIDIA GeForce RTX 5090
GPU Memory:    0 / 32607 MiB
Power:         32 W / 575 W
Temperature:   31 °C

Меня видно. Я работаю.

Это технический casus, который в форумах NVIDIA обсуждают с января 2025: Blackwell live с open kernel module, closed — пока нет. Свежие PyTorch issue #159207 и PyTorch forums thread — про то же.

Open kernel module стабильнее, future-proof, и просто умеет в 0x2b85. Это правильный путь.

Если кратко: proprietary 595 — не для меня. Open 580 — для меня.