Перейти к основному содержимому

MLflow Virtual Machine

Последнее изменение:

MLflow Virtual Machine — преднастроенный облачный сервер с инструментом для отслеживания экспериментов в машинном обучении (ML). Инструмент позволяет сравнивать ML-модели, оптимизировать AI-приложения и управлять доступом к моделям и данным.

Образ, из которого развертывается сервер, содержит:

  • MLflow — инструмент для логирования и отслеживания экспериментов в ML;

  • Docker — платформу для запуска контейнеризированных приложений;

  • драйверы, необходимые для работы с графическими процессорами (GPU).

Решаемые задачи

  • логирование экспериментов — запись метрик, гиперпараметров и артефактов на протяжении всего процесса обучения моделей;
  • автоматическая оценка моделей с помощью инструментов, интегрированных в систему отслеживания экспериментов;
  • совместное управление полным жизненным циклом моделей через реестр моделей;
  • развертывание моделей в Docker, Kubernetes, Azure ML, AWS SageMaker и других средах.

Минимальные требования к ресурсам

Количество vCPU2
RAM4 ГБ
Загрузочный диск40 ГБ
Наличие GPUНе требуется

Создать облачный сервер с MLflow

  1. В панели управления в верхнем меню нажмите Продукты и выберите AI-маркетплейс.

  2. Нажмите Создать сервер.

  3. Заполните блоки:

  4. Проверьте цену сервера.

  5. Нажмите Создать сервер.

Имя и расположение

  1. Введите имя сервера.

  2. Выберите локацию, в которой будет создан сервер. От локации зависит список доступных GPU. После создания сервера изменить локацию нельзя.

Источник

Выберите образ MLflow VM (Ubuntu 24.04 LTS 64-bit).

GPU

  1. Нажмите Добавить GPU.

  2. Выберите тип GPU. При выборе GPU учитывайте требования к ML-моделям и используемым инструментам. Характеристики и описание GPU можно посмотреть в инструкции Графические процессоры (GPU).

  3. Укажите количество GPU.

После создания сервера можно будет изменить тип и количество GPU или удалить GPU. Подробнее в инструкции Изменить конфигурацию облачного сервера.

Конфигурация

  1. Укажите количество vCPU.

  2. Укажите размер RAM.

После создания сервера можно будет изменить конфигурацию.

Диски

  1. Выберите тип загрузочного диска. При использовании локального диска в качестве загрузочного GPU не доступны.

  2. Укажите размер диска в ГБ или ТБ. Максимальный размер для всех сетевых дисков — 10 240 ГБ (10 ТБ), для локального диска — 1 256 ГБ (1 ТБ).

  3. Если вы выбрали тип диска SSD Универсальный v2 или SSD Быстрый v2, укажите общее количество операций чтения и записи в IOPS. После создания диска вы можете изменить количество IOPS — уменьшить или увеличить. Количество изменений IOPS не ограничено.

  4. Опционально: чтобы добавить дополнительные диски сервера:

    4.1. Нажмите Добавить диск.

    4.2. Выберите тип диска.

    4.3. Укажите размер диска в ГБ или ТБ. Максимальный размер для всех сетевых дисков — 10 240 ГБ (10 ТБ), для локального диска — 1 256 ГБ (1 ТБ).

    4.4. Если вы выбрали тип диска SSD Универсальный v2 или SSD Быстрый v2, укажите общее количество операций чтения и записи в IOPS. После создания диска вы можете изменить количество IOPS — уменьшить или увеличить. Количество изменений IOPS не ограничено.

    После создания сервера можно будет отключить от него дополнительные диски или подключить новые.

Сеть

Вы можете добавить сервер в новую подсеть или в уже существующую. Подсеть может быть:

  • приватная без доступа из интернета. К серверу нельзя будет подключиться из интернета, в том числе по SSH или RDP;
  • приватная с одним публичным IP-адресом. Статический публичный IP-адрес подключается к приватному адресу сервера через облачный роутер. Сервер будет доступен из интернета через этот публичный IP-адрес;
  • публичная, в которой все адреса доступны из интернета.
  1. Чтобы добавить существующую приватную подсеть:

    1.1. В поле Подсеть выберите существующую подсеть.

    1.2. Опционально: измените приватный IP-адрес сервера по умолчанию.

  2. Чтобы добавить новую приватную подсеть:

    2.1. В поле Подсеть выберите тип подсети Приватная.

    2.2. Опционально: измените CIDR подсети.

    2.3. Опционально: включите тумблер DHCP. Подробнее о протоколе DHCP в статье блога Selectel Принципы работы протокола DHCP.

    2.4. Опционально: измените IP-адрес шлюза по умолчанию.

    2.5. Опционально: измените сеть, в которой будет создана подсеть — можно выбрать существующую сеть или создать новую. Если вы создаете новую сеть, введите имя сети.

Опционально: Доступ

  1. В поле Пароль для «root»:

    1.1. Скопируйте пароль пользователя root — пользователя с неограниченными правами на все действия над системой.

    1.2. Сохраните пароль в безопасном месте и не передавайте в открытом виде.

  2. Разместите на сервере SSH-ключ для проекта для безопасного подключения:

    2.1. Если SSH-ключ не добавлен в облачную платформу, нажмите , введите имя ключа, вставьте публичный ключ в формате OpenSSH и нажмите Добавить.

    2.2. Если SSH-ключ добавлен в облачную платформу, в поле SSH-ключ выберите существующий ключ.

Опционально: Дополнительные настройки

  1. Чтобы создать прерываемый сервер, отметьте чекбокс Прерываемый сервер.

  2. Если вы планируете создать несколько серверов и хотите повысить отказоустойчивость инфраструктуры, добавьте сервер в группу размещения:

    2.1. Чтобы создать новую группу, нажмите , введите имя группы и выберите политику размещения на разных хостах:

    • желательно — система постарается разместить серверы на разных хостах. Если при создании сервера не будет подходящего хоста, он будет создан на том же хосте;

    • обязательно — серверы в группе обязательно располагаются на разных хостах. Если при создании сервера не будет подходящего хоста, сервер не будет создан.

    2.2. Если группа создана, в поле Группа размещения выберите группу размещения.

  3. Чтобы добавить дополнительную информацию или фильтровать серверы в списке, добавьте теги сервера. Автоматически добавляется тег с названием образа. Чтобы добавить новый тег, в поле Теги введите тег.

Опционально: Автоматизация

  1. Чтобы добавить скрипт, который выполнится с помощью агента cloud-init при первом запуске операционной системы, в поле User data:

    • откройте вкладку Текст и вставьте скрипт текстом;
    • или откройте вкладку Файл и загрузите файл со скриптом.

    Примеры скриптов и поддерживаемые форматы можно посмотреть в инструкции User data.

Запустить MLflow

  1. В панели управления в верхнем меню нажмите Продукты и выберите AI-маркетплейс.

  2. В карточке MLflow Virtual Machine нажмите Перейти в GUI.

  3. Введите имя пользователя — admin.

  4. Введите пароль — UUID сервера. Можно скопировать в панели управления: в верхнем меню нажмите ПродуктыAI-маркетплейс → в меню сервера выберите Скопировать UUID.

  5. Нажмите Войти.