Перейти к основному содержимому
Установить драйверы на облачном сервере с GPU
Последнее изменение:

Установить драйверы на облачном сервере с GPU

Для стабильной работы GPU NVIDIA® на облачном сервере с GPU нужно установить драйверы. Драйверы предустановлены в серверах, созданных из готового образа Data Analytics VM (Ubuntu 22.04 LTS 64-bit) и Data Science VM (Ubuntu 22.04 LTS 64-bit).

  1. Выберите версию драйвера.
  2. Установите драйвер.

1. Выбрать версию драйвера

  1. Подключитесь к облачному серверу с GPU.

  2. Установите пакет ubuntu-drivers-common:

    sudo apt install -y ubuntu-drivers-common alsa-utils
  3. Посмотрите рекомендуемую версию драйвера:

    sudo ubuntu-drivers devices

    В ответе появится список версий. Пример для GPU NVIDIA® Tesla T4 с рекомендуемой версией 550⁠:

    == /sys/devices/pci0000:00/0000:00:06.0 ==
    modalias : pci:v000010DEd00001EB8sv000010DEsd000012A2bc03sc02i00
    vendor : NVIDIA Corporation
    model : TU104GL [Tesla T4]
    manual_install: True
    driver : nvidia-driver-450-server - distro non-free
    driver : nvidia-driver-535-server - distro non-free
    driver : nvidia-driver-470-server - distro non-free
    driver : nvidia-driver-470 - distro non-free
    driver : nvidia-driver-550 - third-party non-free recommended
    driver : nvidia-driver-418-server - distro non-free
    driver : xserver-xorg-video-nouveau - distro free builtin
  4. Опционально: посмотрите список всех доступных версий:

    sudo apt-cache search nvidia-driver-*

    Убедитесь, что выбранная версия драйвера выше минимальной совместимой версии для архитектуры GPU облачного сервера. Посмотреть архитектуру GPU можно в инструкции Создать облачный сервер с GPU, а соответствие версии драйвера и архитектуры — в инструкции CUDA Compatibility документации NVIDIA®.

2. Установить драйвер

  1. Если архитектура GPU — Pascal (например, у NVIDIA® GTX 1080⁠), добавьте на облачный сервер репозиторий NVIDIA® Personal Package Archive:

    sudo add-apt-repository ppa:graphics-drivers/ppa -y
  2. Установите linux-headers (заголовки ядра):

    sudo apt update
    for kernel in $(linux-version list); do apt install -y "linux-headers-${kernel}"; done
  3. Установите драйвер:

    sudo apt install -y nvidia-driver-<driver_version>

    Укажите <driver_version> — версия драйвера, которую вы выбрали.

    Пример установки рекомендуемой версии 550 для GPU NVIDIA® Tesla T4:

    sudo apt install -y nvidia-driver-550
  4. Проверьте, что драйвер установлен и работает:

    nvidia-smi

    В ответе появятся версии NVIDIA-SMI, драйвера и CUDA. Например:

    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.54.15 Driver Version: 550.54.15 CUDA Version: 12.4 |
    |-----------------------------------------+------------------------+----------------------+
    | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
    | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
    | | | MIG M. |
    |=========================================+========================+======================|
    | 0 Tesla T4 Off | 00000000:00:06.0 Off | 0 |
    | N/A 41C P8 10W / 70W | 0MiB / 15360MiB | 0% Default |
    | | | N/A |
    +-----------------------------------------+------------------------+----------------------+

    +-----------------------------------------------------------------------------------------+
    | Processes: |
    | GPU GI CI PID Type Process name GPU Memory |
    | ID ID Usage |
    |=========================================================================================|
    | No running processes found |
    +-----------------------------------------------------------------------------------------+
  5. Откройте конфигурационный файл пакета unattended-upgrades, который работает с обновлениями безопасности:

    nano /etc/apt/apt.conf.d/50unattended-upgrades
  6. Запретите обновление пакетов для NVIDIA®. Для этого добавьте в файл блок:

    Unattended-Upgrade::Package-Blacklist {
    "linux-";
    "nvidia-";
    };