Установить драйверы на облачном сервере с GPU
Для стабильной работы GPU NVIDIA® на облачном сервере с GPU нужно установить драйверы. Драйверы предустановлены в серверах, созданных из готового образа Ubuntu 22.04 LTS Machine Learning 64-bit
.
1. Выбрать версию драйвера
-
Установите пакет ubuntu-drivers-common:
sudo apt install -y ubuntu-drivers-common alsa-utils
-
Посмотрите рекомендуемую версию драйвера:
sudo ubuntu-drivers devices
В ответе появится список версий. Пример для GPU NVIDIA® Tesla T4 с рекомендуемой версией
550
:== /sys/devices/pci0000:00/0000:00:06.0 ==
modalias : pci:v000010DEd00001EB8sv000010DEsd000012A2bc03sc02i00
vendor : NVIDIA Corporation
model : TU104GL [Tesla T4]
manual_install: True
driver : nvidia-driver-450-server - distro non-free
driver : nvidia-driver-535-server - distro non-free
driver : nvidia-driver-470-server - distro non-free
driver : nvidia-driver-470 - distro non-free
driver : nvidia-driver-550 - third-party non-free recommended
driver : nvidia-driver-418-server - distro non-free
driver : xserver-xorg-video-nouveau - distro free builtin -
Опционально: посмотрите список всех доступных версий:
sudo apt-cache search nvidia-driver-*
Убедитесь, что выбранная версия драйвера выше минимальной совместимой версии для архитектуры GPU облачного сервера. Посмотреть архитектуру GPU можно в инструкции Создать облачный сервер с GPU, а соответствие версии драйвера и архитектуры — в инструкции CUDA Compatibility документации NVIDIA®.
2. Установить драйвер
-
Если архитектура GPU — Pascal (например, у NVIDIA® GTX 1080), добавьте на облачный сервер репозиторий NVIDIA® Personal Package Archive:
sudo add-apt-repository ppa:graphics-drivers/ppa -y
-
Установите linux-headers (заголовки ядра):
sudo apt update
for kernel in $(linux-version list); do apt install -y "linux-headers-${kernel}"; done -
Установите драйвер:
sudo apt install -y nvidia-driver-<driver_version>
Укажите
<driver_version>
— версия драйвера, которую вы выбрали.Пример установки рекомендуемой версии
550
для GPU NVIDIA® Tesla T4:sudo apt install -y nvidia-driver-550
-
Проверьте, что драйвер установлен и работает:
nvidia-smi
В ответе появятся версии NVIDIA-SMI, драйвера и CUDA. Например:
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15 Driver Version: 550.54.15 CUDA Version: 12.4 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla T4 Off | 00000000:00:06.0 Off | 0 |
| N/A 41C P8 10W / 70W | 0MiB / 15360MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+ -
Откройте конфигурационный файл пакета unattended-upgrades, который работает с обновлениями безопасности:
nano /etc/apt/apt.conf.d/50unattended-upgrades
-
Запретите обновление пакетов для NVIDIA®. Для этого добавьте в файл блок:
Unattended-Upgrade::Package-Blacklist {
"linux-";
"nvidia-";
};