Масштабировать inference-сервис
Вы можете масштабировать inference-сервис в зависимости от количества запросов к модели:
-
настроить фиксированное количество inference-инстансов — фактически развернутых экземпляров моделей. Например, добавить inference-инстансы при росте числа запросов к модели или уменьшить — при снижении числа запросов;
-
или настроить автомасштабирование. Количество inference-инстансов будет автоматически меняться в указанном диапазоне в зависимости от числа запросов и времени их обработки.
Чтобы масштабировать inference-сервис, измените количество inference-инстансов.
Изменить количество inference-инстансов
Вы можете использовать фиксированное количество inference-инстансов или настроить автомасштабирование.
Фиксированное количество
Автомасштабирование
-
В панели управления в верхнем меню нажмите Продукты и выберите Inference-сервисы.
-
Откройте страницу inference-сервиса → вкладка Сервис.
-
В блоке Автомасштабирование сервиса нажмите Изменить.
-
Откройте вкладку Фиксированное и укажите количество inference-инстансов.
-
Нажмите Сохранить. Изменение настроек масштабирования может занимать более 10 минут. В течение этого времени inference-сервис будет недоступен.
-
В панели управления в верхнем меню нажмите Продукты и выберите Inference-сервисы.
-
Откройте страницу inference-сервиса → вкладка Сервис.
-
В блоке Автомасштабирование сервиса нажмите Изменить.
-
Откройте вкладку С автомасштабированием и установите минимальное и максимальное количество inference-инстансов. Количество inference-инстансов будет автоматически меняться в указанном диапазоне в зависимости от числа запросов к модели и времени их обработки.
-
Нажмите Сохранить. Изменение настроек масштабирования может занимать более 10 минут. В течение этого времени inference-сервис будет недоступен.