Перейти к основному содержимому

Масштабировать inference-сервис

Последнее изменение:

Вы можете масштабировать inference-сервис в зависимости от количества запросов к модели:

  • настроить фиксированное количество inference-инстансов — фактически развернутых экземпляров моделей. Например, добавить inference-инстансы при росте числа запросов к модели или уменьшить — при снижении числа запросов;

  • или настроить автомасштабирование. Количество inference-инстансов будет автоматически меняться в указанном диапазоне в зависимости от числа запросов и времени их обработки.

Чтобы масштабировать inference-сервис, измените количество inference-инстансов.

Изменить количество inference-инстансов

Вы можете использовать фиксированное количество inference-инстансов или настроить автомасштабирование.

  1. В панели управления в верхнем меню нажмите Продукты и выберите Inference-сервисы.

  2. Откройте страницу inference-сервиса → вкладка Сервис.

  3. В блоке Автомасштабирование сервиса нажмите Изменить.

  4. Откройте вкладку Фиксированное и укажите количество inference-инстансов.

  5. Нажмите Сохранить. Изменение настроек масштабирования может занимать более 10 минут. В течение этого времени inference-сервис будет недоступен.