Перейти к основному содержимому

Создать inference-сервис

Последнее изменение:
  1. Выберите модель.
  2. Настройте инфраструктуру.
  3. Настройте inference-сервис.
  4. Подтвердите конфигурацию.

1. Выбрать модель

  1. В панели управления в верхнем меню нажмите Продукты и выберите Foundation Models Catalog.

  2. В карточке модели нажмите Создать.

  3. Введите имя inference-сервиса.

  4. Чтобы фильтровать inference-сервисы в списке, добавьте теги. Автоматически добавляется тег с названием модели. Чтобы добавить новый тег, в поле Теги введите тег и нажмите Enter.

  5. Опционально: введите описание inference-сервиса. Например, укажите его назначение.

  6. Нажмите Продолжить.

2. Настроить инфраструктуру

  1. Задайте параметры модели.

    1.1. Выберите тип данных параметров модели.

    1.2. Выберите тип данных для KV-кэша.

    1.3. Выберите максимальную длину контекста.

  2. Выберите конфигурацию inference-сервиса. При выборе учитывайте ожидаемые метрики производительности модели.

    После создания inference-сервиса конфигурацию изменить нельзя.

  3. Нажмите Продолжить.

3. Настроить inference-сервис

  1. Настройте количество inference-инстансов.

    1.1. Чтобы в сервисе было фиксированное количество инстансов, откройте вкладку Фиксированное и укажите количество инстансов.

    1.2. Чтобы в сервисе использовалось автомасштабирование, откройте вкладку С автомасштабированием и установите минимальное и максимальное количество инстансов. Количество инстансов будет меняться автоматически только в указанном диапазоне в зависимости от нагрузки на inference-сервис.

    Вы можете изменить количество inference-инстансов после создания inference-сервиса. Подробнее в инструкции Масштабировать inference-сервис.

  2. Выберите тип диска для inference-инстанса.

  3. Нажмите Продолжить.

4. Подтвердить конфигурацию

  1. Проверьте итоговую конфигурацию inference-сервиса.

  2. Проверьте цену inference-сервиса.

  3. Нажмите Создать Inference-сервис. Создание inference-сервиса может занимать около 15 минут.