Мониторинг кластера Kafka

В облачных базах данных Kafka можно отслеживать состояние кластера.

Для оценки общего состояния кластера посмотрите его статус.

Для более детального анализа можно:

посмотреть состояние нод кластера — в виде графиков в панели управления;
экспортировать метрики нод кластера в формате Prometheus.

При анализе графиков учитывайте, что время в панели управления соответствует времени на вашем устройстве и не зависит от региона, где размещен кластер.

примечание

Например, вы создали кластер в Ташкенте, в пуле uz-1. На устройстве, с которого вы зашли в панель управления, установлен часовой пояс Москвы. Время на графиках метрик будет отображаться в часовом поясе Москвы.

Посмотреть статус кластера

В панели управления в верхнем меню нажмите Продукты и выберите Облачные базы данных.
Откройте вкладку Активные.

В строке кластера посмотрите статус.

ACTIVE	Кластер доступен
CREATING	Кластер создается
UPDATING	Кластер обновляется
RESIZING	Кластер масштабируется
ERROR	Произошла ошибка, создайте тикет
DISK FULL	Диск заполнен, кластер работает только на чтение. Чтобы кластер работал на чтение и запись, освободите место на диске или масштабируйте кластер и выберите конфигурацию с бóльшим размером диска
DEGRADED	Часть нод кластера недоступна
DELETING	Кластер удаляется

Посмотреть состояние нод кластера

В панели управления в верхнем меню нажмите Продукты и выберите Облачные базы данных.
Откройте вкладку Активные.
Откройте страницу кластера → вкладка Мониторинг.
В блоке Мониторинг кластера посмотрите доступные метрики нод кластера.

Метрики нод кластера в панели управления

Память	Занятая память без учета кэша и буферов операционной системы в процентах или гигабайтах
vCPU	На сколько процентов загружены ядра нод кластера
CPU iowait	Cколько процентов времени процессор потратил на ожидание ввода/вывода
Диск	Занятое место на диске в процентах или гигабайтах. Учитывает часть дискового пространства, зарезервированную под служебные нужды и недоступную для размещения баз данных. Подробнее о резервировании дискового пространства в инструкции Использование дискового пространства в кластере Kafka
Load Average	Среднее значение загрузки системы за период времени. Показывает, какое количество процессов обрабатывается ядрами кластера. Показатель представлен в виде трех значений — за одну минуту, пять минут и 15 минут. Эти значения должны быть не больше, чем количество ядер на ноде
OOM	Количество процессов, которые завершились ошибкой `Out of Memory` из-за нехватки оперативной памяти
Нагрузка диска	Скорость чтения и записи данных в КБ/с или количество операций чтения и записи в секунду
Нагрузка сети	Количество бит или пакетов, отправленных и принятых через сетевой интерфейс

Экспортировать метрики в формате Prometheus

Историческая информация для кластеров недоступна — метрики запрашиваются только в режиме реального времени. Список всех метрик, которые поддерживаются в облачных базах данных, и их описание можно посмотреть в таблице Метрики в формате Prometheus.

Получите токен.
Получите метрики в формате Prometheus.

1. Получить токен

Токен дает доступ к метрикам всех кластеров проекта в одном пуле.

В панели управления в верхнем меню нажмите Продукты и выберите Облачные базы данных.
Откройте вкладку Активные.
Откройте страницу кластера → вкладка Мониторинг.
В блоке Токены для Prometheus нажмите Создать токен. Токен будет сгенерирован автоматически.
Скопируйте токен. Для этого в строке токена нажмите .

2. Получить метрики в формате Prometheus

Конфигурационный файл
CLI

Добавьте в конфигурационный файл Prometheus:
```
scrape_configs:
  - job_name: get-metrics-from-dbaas
    scrape_interval: 1m
    static_configs:
      - targets:
        - '<domain>'
    scheme: https
    authorization:
      type: Bearer
      credentials: <token>
```
Укажите:
- <domain> — домен Managed Databases API. Это часть URL для обращения к API без https:// и /v1, например ru-3.dbaas.selcloud.ru. URL зависит от региона и пула, можно посмотреть в списке URL;
- <token> — токен, который вы скопировали при получении токена на шаге 5.
Откройте в браузере страницу, на которой будут доступны метрики в формате Prometheus:
```
http://<ip_address>:9090/targets
```
Укажите <ip_address> — IP-адрес, на котором установлен Prometheus.
Самостоятельно настройте мониторинг и алерты для кластеров баз данных.

Метрики в формате Prometheus

Метрики в формате Prometheus предоставляются для всех кластеров. Конкретный кластер можно найти по идентификатору кластера базы данных в лейбле ds_id.

dbaas_memory_percent	Занятая память без учета кэша и буферов операционной системы (RAM) в процентах
dbaas_memory_bytes	Занятая память без учета кэша и буферов операционной системы (RAM) в байтах
dbaas_oom_count	Количество процессов, которые завершились ошибкой `Out of Memory` из-за нехватки оперативной памяти
dbaas_cpu	Использование vCPU на нодах кластера базы данных в процентах
dbaas_cpu_iowait	Время ожидания ввода/вывода в процентах
dbaas_disk_percent	Занятое место на диске в процентах. Учитывает часть дискового пространства, зарезервированную под служебные нужды и недоступную для размещения баз данных. Подробнее о резервировании дискового пространства в инструкции Использование дискового пространства в кластере Kafka
dbaas_disk_bytes	Занятое место на диске в байтах. Учитывает часть дискового пространства, зарезервированную под служебные нужды и недоступную для размещения баз данных. Подробнее о резервировании дискового пространства в инструкции Использование дискового пространства в кластере Kafka
dbaas_disk_read_iops	Количество операций чтения в секунду
dbaas_disk_write_iops	Количество операций записи в секунду
dbaas_disk_read_bytes	Скорость чтения данных с диска в байтах в секунду
dbaas_disk_write_bytes	Скорость записи данных на диск в байтах в секунду
dbaas_node_load1	Среднее значение загрузки системы за одну минуту. Показывает, какое количество процессов обрабатывается ядрами кластера
dbaas_node_load5	Среднее значение загрузки системы за пять минут. Показывает, какое количество процессов обрабатывается ядрами кластера
dbaas_node_load15	Среднее значение загрузки системы за 15 минут. Показывает, какое количество процессов обрабатывается ядрами кластера
dbaas_network_receive_bytes	Количество байт, принятых через сетевой интерфейс
dbaas_network_transmit_bytes	Количество байт, отправленных через сетевой интерфейс
dbaas_network_receive_packets	Количество пакетов, принятых через сетевой интерфейс в секунду
dbaas_network_transmit_packets	Количество пакетов, отправленных через сетевой интерфейс в секунду
dbaas_role	Роль ноды: `0` — роль неизвестна; `1` — мастер; `2` — реплика