Автомасштабирование группы нод

к сведению

Автомасштабирование недоступно:

для групп нод с GPU без драйверов;
групп нод на выделенных серверах.

В кластере Managed Kubernetes для автомасштабирования групп нод можно использовать Cluster Autoscaler или Karpenter. Они помогают оптимально использовать ресурсы кластера — в зависимости от нагрузки на кластер количество нод в группе будет автоматически уменьшаться или увеличиваться. Cluster Autoscaler устанавливается автоматически при создании кластера, для начала работы его достаточно включить. Karpenter нужно предварительно установить и настроить.

При использовании инструментов автомасштабирования учитывайте рекомендации.

Для автомасштабирования подов в Managed Kubernetes используется Metrics Server.

Автомасштабирование с помощью Cluster Autoscaler

Cluster Autoscaler не требуется устанавливать в кластере — он устанавливается автоматически при создании кластера. Чтобы использовать Cluster Autoscaler в кластере, включите автомасшабирование группы нод. После включения автомасштабирования используются настройки по умолчанию, но вы можете настроить Cluster Autoscaler для каждой группы нод.

Принцип работы

Cluster Autoscaler работает с существующими группами нод и заранее выбранными конфигурациями. Если группа нод находится в статусе ACTIVE, Cluster Autoscaler каждые 10 секунд проверяет, есть ли поды в статусе PENDING, и анализирует нагрузку — запросы от подов на vCPU, RAM и GPU. В зависимости от результатов проверки ноды добавляются или удаляются. Группа нод в это время переходит в статус PENDING_SCALE_UP или PENDING_SCALE_DOWN. Статус кластера во время автомасштабирования — ACTIVE. Подробнее о статусах кластера в инструкции Посмотреть статус кластера.

Минимальное и максимальное количество нод в группе можно задать при включении автомасштабирования — Cluster Autoscaler будет менять количество нод только в этих пределах. Если в других группах нод кластера остается не менее двух рабочих нод, можно настроить автомасштабирование до нуля нод.

Добавление ноды

Если есть поды в статусе PENDING и в кластере не хватает свободных ресурсов для их размещения, в кластер добавляется необходимое количество нод. В кластере с версией Kubernetes 1.28 и выше Cluster Autoscaler будет работать сразу в нескольких группах и распределять ноды равномерно.

примечание

Например, у вас две группы нод с включенным автомасштабированием. Нагрузка на кластер увеличилась и требует добавления четырех нод. В каждой группе нод будет одновременно создано по две новые ноды.

В кластере с версией Kubernetes 1.27 и ниже ноды добавляются по одной за цикл проверки.

Удаление ноды

Если нет подов в статусе PENDING, Cluster Autoscaler проверяет количество ресурсов, которые запрашивают поды.

Если запрашиваемое количество ресурсов для подов на одной ноде меньше 50% от ее ресурсов, то Cluster Autoscaler помечает ноду как ненужную. Если на ноде через 10 минут не вырастет количество запросов на ресурсы, Cluster Autoscaler проверит, можно ли перенести поды на другие ноды.

Cluster Autoscaler не перенесет поды и, соответственно, не удалит ноду, если выполняется одно из условий:

поды используют PodDisruptionBudget;
в Kube-system подах нет PodDisrptionBudget;
поды созданы без контроллера — например, Deployment, ReplicaSet, StatefulSet;
поды используют local storage;
на других нодах нет ресурсов под запросы пода;
есть несоответствие nodeSelector, правил affinity и anti-affinity или других параметров.

Вы можете разрешить таким подам перенос — для этого добавьте аннотацию:

cluster-autoscaler.kubernetes.io/safe-to-evict: "true"

Если ограничений нет, поды будут перенесены, а малонагруженные ноды удалятся. Ноды удаляются по одной за цикл проверки.

Автомасштабирование до нуля нод

В группе нод можно настроить автомасштабирование до нуля нод — при низкой нагрузке удаляются все ноды группы. Карточка группы нод со всеми настройками не удаляется. Когда нагрузка повысится, в этой группе нод снова могут быть добавлены ноды.

Автомасштабирование до нуля нод работает, только если в других группах нод кластера остается не менее двух рабочих нод. В кластере должны оставаться рабочие ноды для размещения системных компонентов, которые нужны для функционирования кластера.

примечание

Например, автомасштабирование до нуля нод не сработает, если в кластере:

две группы нод, в каждой из которых по одной рабочей ноде;
одна группа нод с двумя рабочими нодами.

Когда в группе нет нод, вы не платите за неиспользуемые ресурсы.

Включить автомасштабирование с помощью Cluster Autoscaler

к сведению

Если установить минимальное количество нод в группе больше, чем текущее количество, оно не увеличится до нижней границы сразу. Группа нод будет масштабироваться только после появления подов в статусе PENDING. Так же и с верхней границей нод в группе — если текущее количество нод больше верхней границы, удаление начнется только после проверки подов.

Включить автомасштабирование с помощью Cluster Autoscaler можно в панели управления, через API Managed Kubernetes или через Terraform.

В панели управления в верхнем меню нажмите Продукты и выберите Managed Kubernetes.
Откройте страницу кластера → вкладка Состав кластера.
В меню группы нод выберите Изменить количество нод.
В поле Количество нод откройте вкладку С автомасштабированием.
Установите минимальное и максимальное количество нод в группе — значение нод будет меняться только в этом диапазоне. Для отказоустойчивой работы системных компонентов мы рекомендуем использовать не менее двух рабочих нод в кластере, ноды могут находиться в разных группах.
Нажмите Сохранить.

Настроить Cluster Autoscaler

Вы можете настроить Cluster Autoscaler отдельно для каждой группы нод.

Параметры, их описание и значения по умолчанию можно посмотреть в таблице Параметры Cluster Autoscaler. Если вы не укажете параметр в манифесте, будет использовано значение по умолчанию.

Пример манифеста:

apiVersion: v1
kind: ConfigMap
metadata:
    name: cluster-autoscaler-nodegroup-options
    namespace: kube-system
data:
    config.yaml: |
        150da0a9-6ea6-4148-892b-965282e195b0:
          scaleDownUtilizationThreshold: 0.55
          scaleDownUnneededTime: 7m
          zeroOrMaxNodeScaling: true
        e3dc24ca-df9d-429c-bcd5-be85f8d28710:
          scaleDownGpuUtilizationThreshold: 0.25
          ignoreDaemonSetsUtilization: true

Здесь 150da0a9-6ea6-4148-892b-965282e195b0 и e3dc24ca-df9d-429c-bcd5-be85f8d28710 — уникальные идентификаторы (UUID) групп нод в кластере. Можно посмотреть в панели управления: в верхнем меню нажмите Продукты ⟶ Managed Kubernetes ⟶ раздел Kubernetes ⟶ страница кластера ⟶ скопируйте UUID над карточкой группы нод, рядом с сегментом пула.

Параметры Cluster Autoscaler

	Описание	Значение по умолчанию
scaleDownUtilizationThreshold	Минимальная загрузка vCPU и RAM ноды, при которой система может удалить ноду. Если нода использует меньше указанного процента vCPU и RAM, например меньше 50% при значении `0.5`, система удаляет ноду	0.5
scaleDownGpuUtilizationThreshold	Минимальная загрузка GPU, при которой система может удалить ноду. Если нода использует меньше указанного процента GPU, например меньше 50% при значении `0.5`, система удаляет ноду	0.5
scaleDownUnneededTime	Время ожидания перед удалением ноды с низкой нагрузкой. Система не удалит ноду сразу, как только упадет нагрузка ноды — она подождет указанное время, чтобы убедиться, что снижение нагрузки стабильное	10m
scaleDownUnreadyTime	Время ожидания перед удалением ноды в статусе `NotReady`. Система не оставит ноду в статусе `NotReady` в кластере — она подождет указанное время, чтобы убедиться, что нода зависла и не восстановится, а затем удалит ее	20m
maxNodeProvisionTime	Время ожидания при добавлении новой ноды. Если возникла ошибка и нода не добавилась в течение указанного времени, система заново запустит процесс добавления ноды	15m
zeroOrMaxNodeScaling	Позволяет автоматически изменять количество нод только до нуля или максимума, который вы установили. Полезно, если нужно, чтобы при появлении нагрузки система развернула сразу все ноды в группе, а при отсутствии нагрузки — удалила все ноды	false
ignoreDaemonSetsUtilization	Позволяет не учитывать служебные сервисы (DaemonSets), когда система определяет, нужно ли уменьшать количество нод в группе. Если значение `true`, служебные сервисы не учитываются	false

Автомасштабирование с помощью Karpenter

Принцип работы

Karpenter — это инструмент автомасштабирования кластера с гибкими настройками. В отличие от Cluster Autoscaler, Karpenter использует не только существующие группы нод, но и может создавать новые группы нод.

Karpenter может выбрать оптимальную конфигурацию ноды — с учетом не только технических параметров, но и стоимости. Karpenter выбирает наиболее дешевый вариант, который подходит для текущей нагрузки. Это возможно благодаря тому, что Karpenter интегрируется напрямую с OpenStack API, которое используется для создания ресурсов облачной платформы.

Если кластер находится в статусе ACTIVE, Karpenter проверяет, есть ли поды (Pod) в статусе PENDING, и анализирует нагрузку — запросы от подов на vCPU, RAM и GPU. В зависимости от результатов проверки группы нод и ноды добавляются или удаляются. Karpenter может удалить только ноды и группы нод, которые он создал.

Кластер в это время переходит в статус PENDING_SCALE_UP или PENDING_SCALE_DOWN. Статус кластера во время автомасштабирования — ACTIVE. Подробнее о статусах кластера в инструкции Посмотреть статус кластера.

Установить Karpenter

В панели управления в верхнем меню нажмите Продукты и выберите Managed Kubernetes.
Откройте страницу кластера → вкладка Настройки.
Нажмите Скачать kubeconfig. Скачивание kubeconfig-файла недоступно, если у кластера статус PENDING_CREATE, PENDING_ROTATE_CERTS, PENDING_DELETE или ERROR.
В переменную окружения KUBECONFIG экспортируйте путь к kubeconfig-файлу:
```
export KUBECONFIG=<path>
```
Укажите <path> — путь к kubeconfig-файлу cluster_name.yaml, где <cluster_name> — имя кластера.
Установите Karpenter с помощью Helm:
```
helm install karpenter-helmrelease oci://ghcr.io/selectel/mks-charts/karpenter:0.1.0 \
--namespace kube-system \
--set controller.settings.clusterID=$(<cluster_id>)
```
Укажите <cluster_id> — ID кластера Managed Kubernetes, можно посмотреть в панели управления: в верхнем меню нажмите Продукты → Managed Kubernetes → страница кластера → скопируйте ID под именем кластера, рядом с регионом и пулом.

Настроить Karpenter

Чтобы настроить автомасштабирование с помощью Karpenter, настройте объекты NodePool и NodeClass.

NodePool описывает правила подбора и масштабирования нод. Например:

какие типы нод можно создавать;
с какими конфигурациями (флейворами) и ресурсами;
когда эти ноды можно удалить или пересоздать.

Каждый NodePool ссылается на конкретный NodeClass. В конфигурациях (флейворах) с сетевыми дисками NodeClass определяет инфраструктурные параметры сетевых дисков, которые будут использоваться нодами в кластере. В одном кластере может быть несколько разных NodeClass, например которые отличаются типом или размером сетевого диска. Конфигурации (флейворы) с локальным загрузочным диском тоже могут использоваться, но параметры локального диска определяются выбранной конфигурацией.

Подробнее о NodePool в статье NodePools документации Karpenter.

Проверьте соответствие кластера требованиям.
Создайте NodeClass.
Создайте NodePool.

1. Проверить соответствие кластера требованиям

Убедитесь, что версия Kubernetes 1.28 или выше. Вы можете обновить версию кластера.
Убедитесь, что в кластере минимум одна нода, в которой не менее 2 vCPU и 4 GiB RAM. Для оптимальной работы Karpenter рекомендуем добавить в кластер две ноды, в каждой из которых не менее 2 vCPU и 4 GiB RAM;
Убедитесь, что выключено автомасштабирование.
Убедитесь, что выключено автовосстановление.

2. Создать NodeClass

Создайте yaml-файл nodeclass.yaml с манифестом для объекта NodeClass.

Пример манифеста NodeClass для сетевого диска типа Универсальный:
```
apiVersion: karpenter.k8s.selectel/v1alpha1
kind: SelectelNodeClass
metadata:
    name: default
spec:
    disk:
    categories:
        - universal
    sizeGiB: 30
```
Здесь:
- universal — тип сетевого диска;
- 30 — размер сетевого диска в ГБ.
Примените манифест:
```
kubectl apply -f nodeclass.yaml
```

3. Создать NodePool

Создайте yaml-файл nodepool.yaml с манифестом для объекта NodePool. Описание всех параметров, кроме параметров блока requirements, можно посмотреть в инструкции NodePools документации Karpenter. Описание параметров блока requirements — в таблице Параметры блока requirements в NodePool.

Пример манифеста NodePool:

apiVersion: karpenter.sh/v1
kind: NodePool
metadata:
    name: default
spec:
    template:
        spec:
            nodeClassRef:
                name: default
                kind: SelectelNodeClass
                group: karpenter.k8s.selectel
            requirements:
                - key: topology.kubernetes.io/zone
                  operator: In
                  values: ['ru-7a', 'ru-7b']
                - key: node.kubernetes.io/instance-type
                  operator: In
                  values: ['SL1.1-2048', 'SL1.2-4096', 'SL1.2-8192']
                - key: karpenter.sh/capacity-type
                  operator: In
                  values: ['on-demand']
    disruption:
        consolidationPolicy: WhenEmptyOrUnderutilized
        consolidateAfter: 0s
        expireAfter: 720h
    limits:
        cpu: '1000'
        memory: 1000Gi

Примените манифест:
```
kubectl apply -f nodepool.yaml
```

Параметры блока requirements в NodePool

В объекте NodePool в блоке requirements описываются требования к создаваемым нодам.

Параметр	Описание
karpenter.sh/capacity-type	Тип создаваемых нод: `on-demand` — непрерываемые ноды; или `spot` — прерываемые ноды
karpenter.k8s.selectel/instance-category	Линейка конфигурации. Например, Standard Line (`SL`) или GPU Line (`GL`). Подробнее о конфигурациях в инструкции Конфигурации
karpenter.k8s.selectel/instance-family	Линейка конфигурации и поколение линейки. Например, `SL1` или `GL1`
karpenter.k8s.selectel/instance-generation	Поколение линейки. Например, `1` или `2`
node.kubernetes.io/instance-type	Конфигурации (флейворы). Например, `["SL1.1-2048", "SL1.2-4096", "SL1.2-8192"]`. Конфигурации можно посмотреть в подразделе Список флейворов фиксированной конфигурации во всех пулах инструкции Конфигурации
karpenter.k8s.selectel/instance-cpu	Количество vCPU. Например, `Gt: "4"` — больше 4
karpenter.k8s.selectel/instance-memory	Объем оперативной памяти в ГиБ. Например, `Gt: "8"` — больше 8 ГиБ
karpenter.k8s.selectel/instance-gpu-manufacturer	Производитель графического процессора (GPU). Доступное значение — `["NVIDIA"]`
karpenter.k8s.selectel/instance-gpu-name	Название GPU для конфигураций с GPU. Например, `["A100", "H100"]`. Доступные GPU можно посмотреть в подразделе Доступные GPU инструкции Создать кластер Managed Kubernetes с GPU
karpenter.k8s.selectel/instance-gpu-count	Количество GPU. Например, `Gt: "0"` — больше одного графического процессора
karpenter.k8s.selectel/instance-local-disk	Указывает, используется ли в качестве загрузочного диска локальный диск облачной платформы. Доступные значения — `["true"]` и `["false"]`
topology.kubernetes.io/zone	Сегменты пула, где могут быть созданы группы нод. Например, `["ru-7a", "ru-7b"]`. Доступные значения можно посмотреть в подразделе Managed Kubernetes инструкции Матрицы доступности

Рекомендации

Автомасштабирование с помощью Cluster Autoscaler

Принцип работы

Добавление ноды

Удаление ноды

Автомасштабирование до нуля нод

Включить автомасштабирование с помощью Cluster Autoscaler

Настроить Cluster Autoscaler

Параметры Cluster Autoscaler

Автомасштабирование с помощью Karpenter

Принцип работы

Установить Karpenter

Настроить Karpenter

1. Проверить соответствие кластера требованиям

2. Создать NodeClass

3. Создать NodePool

Параметры блока requirements в NodePool