Масштабировать inference-сервис
Чтобы оптимально использовать ресурсы inference-сервиса, вы можете масштабировать его в зависимости от нагрузки:
-
настроить фиксированное количество inference-инстансов — развернутых экземпляров моделей. Например, увеличить количество inference-инстансов при росте числа запросов или уменьшить, если количество запросов снизилось;
-
или настроить автомасштабирование. Количество inference-инстансов будет автоматически меняться в указанном диапазоне в зависимости от числа запросов и времени их обработки.
Чтобы масштабировать inference-сервис, измените количество inference-инстансов.
Изменить количество inference-инстансов
Вы можете использовать фиксированное количество inference-инстансов или настроить автомасштабирование.
Фиксированное количество
Автомасштабирование
-
В панели управления в верхнем меню нажмите Продукты и выберите Inference-сервисы.
-
Откройте страницу inference-сервиса → вкладка Сервис.
-
В блоке Автомасштабирование сервиса нажмите Изменить.
-
Откройте вкладку Фиксированное и укажите количество inference-инстансов.
-
Нажмите Сохранить. Изменение настроек масштабирования может занимать более 10 минут. В течение этого времени inference-сервис будет недоступен.