Перейти к основному содержимому

Масштабировать inference-сервис

Чтобы оптимально использовать ресурсы inference-сервиса, вы можете масштабировать его в зависимости от нагрузки:

настроить фиксированное количество inference-инстансов — развернутых экземпляров моделей. Например, увеличить количество inference-инстансов при росте числа запросов или уменьшить, если количество запросов снизилось;
или настроить автомасштабирование. Количество inference-инстансов будет автоматически меняться в указанном диапазоне в зависимости от числа запросов и времени их обработки.

Чтобы масштабировать inference-сервис, измените количество inference-инстансов.

Изменить количество inference-инстансов

Вы можете использовать фиксированное количество inference-инстансов или настроить автомасштабирование.

Фиксированное количество
Автомасштабирование

В панели управления в верхнем меню нажмите Продукты и выберите Inference-сервисы.
Откройте страницу inference-сервиса → вкладка Сервис.
В блоке Автомасштабирование сервиса нажмите Изменить.
Откройте вкладку Фиксированное и укажите количество inference-инстансов.
Нажмите Сохранить. Изменение настроек масштабирования может занимать более 10 минут. В течение этого времени inference-сервис будет недоступен.

Изменить количество inference-инстансов