Мониторинг кластера Kafka

В облачных базах данных Kafka можно отслеживать состояние кластера.

Для оценки общего состояния кластера посмотрите его статус.

Для более детального анализа можно:

посмотреть состояние нод кластера — в виде графиков в панели управления;
экспортировать метрики нод кластера в формате Prometheus.

Время в панели управления соответствует времени, установленному на вашем устройстве, и не зависит от региона, где размещен кластер.

примечание

Например, вы создали кластер в Ташкенте, в пуле uz-1. На устройстве, с которого вы зашли в панель управления, установлен часовой пояс Москвы. Время на графиках метрик будет отображаться в часовом поясе Москвы.

Посмотреть статус кластера

В панели управления в верхнем меню нажмите Продукты и выберите Облачные базы данных.
Откройте вкладку Активные.

В строке кластера посмотрите статус.

ACTIVE	Кластер доступен
CREATING	Кластер создается
UPDATING	К кластеру применяются изменения
RESIZING	Кластер масштабируется
ERROR	Произошла ошибка, создайте тикет
DISK FULL	Диск заполнен, кластер работает только на чтение. Чтобы кластер работал на чтение и запись, освободите место на диске или масштабируйте кластер и выберите конфигурацию с бóльшим размером диска
DEGRADED	Часть нод кластера недоступна
DELETING	Кластер удаляется

Посмотреть состояние нод кластера

В панели управления в верхнем меню нажмите Продукты и выберите Облачные базы данных.
Откройте вкладку Активные.
Откройте страницу кластера → вкладка Мониторинг.
В блоке Мониторинг кластера посмотрите доступные метрики нод кластера.

Метрики нод кластера в панели управления

Память	Занятая память без учета кэша и буферов операционной системы в процентах или гигабайтах
vCPU	На сколько процентов загружены ядра нод кластера
CPU iowait	Cколько процентов времени процессор потратил на ожидание ввода/вывода
Диск	Занятое место на диске в процентах или гигабайтах. Учитывает часть дискового пространства, зарезервированную под служебные нужды и недоступную для размещения баз данных. Подробнее о резервировании дискового пространства в инструкции Использование дискового пространства в кластере Kafka
Load Average	Среднее значение загрузки системы за период времени. Показывает, какое количество процессов обрабатывается ядрами кластера. Показатель представлен в виде трех значений — за одну минуту, пять минут и 15 минут. Эти значения должны быть не больше, чем количество ядер на ноде
OOM	Количество процессов, которые завершились ошибкой `Out of Memory` из-за нехватки оперативной памяти
Нагрузка диска	Скорость чтения и записи данных в КБ/с или количество операций чтения и записи в секунду
Нагрузка сети	Количество бит или пакетов, отправленных и принятых через сетевой интерфейс

Экспортировать метрики в формате Prometheus

Историческая информация для кластеров недоступна — метрики запрашиваются только в режиме реального времени. Список всех метрик, которые поддерживаются в облачных базах данных, и их описание можно посмотреть в таблице Метрики в формате Prometheus.

Получите токен.
Получите метрики в формате Prometheus.

1. Получить токен

Токен дает доступ к метрикам всех кластеров проекта в одном пуле.

В панели управления в верхнем меню нажмите Продукты и выберите Облачные базы данных.
Откройте вкладку Активные.
Откройте страницу кластера → вкладка Мониторинг.
В блоке Токены для Prometheus нажмите Создать токен. Токен будет сгенерирован автоматически.
Скопируйте токен. Для этого в строке токена нажмите .

2. Получить метрики в формате Prometheus

Конфигурационный файл
CLI

Добавьте в конфигурационный файл Prometheus:
```
scrape_configs:
  - job_name: get-metrics-from-dbaas
    scrape_interval: 1m
    static_configs:
      - targets:
        - '<domain>'
    scheme: https
    authorization:
      type: Bearer
      credentials: <token>
```
Укажите:
- <domain> — домен Managed Databases API. Это часть URL для обращения к API без https:// и /v1, например ru-3.dbaas.selcloud.ru. URL зависит от региона и пула, можно посмотреть в списке URL;
- <token> — токен, который вы скопировали при получении токена на шаге 5.
Откройте в браузере страницу, на которой будут доступны метрики в формате Prometheus:
```
http://<ip_address>:9090/targets
```
Укажите <ip_address> — IP-адрес, на котором установлен Prometheus.
Самостоятельно настройте мониторинг и алерты для кластеров баз данных.

Откройте CLI.
Чтобы получить метрики, отправьте запрос:
```
curl -L "https://<domain>/metrics" -H "Authorization: Bearer <token>"
```
Укажите:
- <domain> — домен Managed Databases API. Это часть URL для обращения к API без https:// и /v1, например ru-3.dbaas.selcloud.ru. URL зависит от региона и пула, можно посмотреть в списке URL;
- <token> — токен, который вы скопировали при получении токена на шаге 5.
В ответе появятся доступные метрики в формате Prometheus.
Самостоятельно настройте мониторинг и алерты для кластеров баз данных.

Метрики в формате Prometheus

Метрики в формате Prometheus предоставляются для всех кластеров. Конкретный кластер можно найти по идентификатору кластера базы данных в лейбле ds_id.

dbaas_memory_percent	Занятая память без учета кэша и буферов операционной системы (RAM) в процентах
dbaas_memory_bytes	Занятая память без учета кэша и буферов операционной системы (RAM) в байтах
dbaas_oom_count	Количество процессов, которые завершились ошибкой `Out of Memory` из-за нехватки оперативной памяти
dbaas_cpu	Использование vCPU на нодах кластера базы данных в процентах
dbaas_cpu_iowait	Время ожидания ввода/вывода в процентах
dbaas_disk_percent	Занятое место на диске в процентах. Учитывает часть дискового пространства, зарезервированную под служебные нужды и недоступную для размещения баз данных. Подробнее о резервировании дискового пространства в инструкции Использование дискового пространства в кластере Kafka
dbaas_disk_bytes	Занятое место на диске в байтах. Учитывает часть дискового пространства, зарезервированную под служебные нужды и недоступную для размещения баз данных. Подробнее о резервировании дискового пространства в инструкции Использование дискового пространства в кластере Kafka
dbaas_disk_read_iops	Количество операций чтения в секунду
dbaas_disk_write_iops	Количество операций записи в секунду
dbaas_disk_read_bytes	Скорость чтения данных с диска в байтах в секунду
dbaas_disk_write_bytes	Скорость записи данных на диск в байтах в секунду
dbaas_node_load1	Среднее значение загрузки системы за одну минуту. Показывает, какое количество процессов обрабатывается ядрами кластера
dbaas_node_load5	Среднее значение загрузки системы за пять минут. Показывает, какое количество процессов обрабатывается ядрами кластера
dbaas_node_load15	Среднее значение загрузки системы за 15 минут. Показывает, какое количество процессов обрабатывается ядрами кластера
dbaas_network_receive_bytes	Количество байт, принятых через сетевой интерфейс
dbaas_network_transmit_bytes	Количество байт, отправленных через сетевой интерфейс
dbaas_network_receive_packets	Количество пакетов, принятых через сетевой интерфейс в секунду
dbaas_network_transmit_packets	Количество пакетов, отправленных через сетевой интерфейс в секунду
dbaas_role	Роль ноды: `0` — роль неизвестна; `1` — мастер; `2` — реплика