Перейти к основному содержимому

Масштабировать inference-сервис

Последнее изменение:

Чтобы оптимально использовать ресурсы inference-сервиса, вы можете масштабировать его в зависимости от нагрузки:

  • настроить фиксированное количество inference-инстансов — развернутых экземпляров моделей. Например, увеличить количество inference-инстансов при росте числа запросов или уменьшить, если количество запросов снизилось;

  • или настроить автомасштабирование. Количество inference-инстансов будет автоматически меняться в указанном диапазоне в зависимости от числа запросов и времени их обработки.

Чтобы масштабировать inference-сервис, измените количество inference-инстансов.

Изменить количество inference-инстансов

Вы можете использовать фиксированное количество inference-инстансов или настроить автомасштабирование.

  1. В панели управления в верхнем меню нажмите Продукты и выберите Inference-сервисы.

  2. Откройте страницу inference-сервиса → вкладка Сервис.

  3. В блоке Автомасштабирование сервиса нажмите Изменить.

  4. Откройте вкладку Фиксированное и укажите количество inference-инстансов.

  5. Нажмите Сохранить. Изменение настроек масштабирования может занимать более 10 минут. В течение этого времени inference-сервис будет недоступен.