Перейти к основному содержимому
Диагностировать и заменить неисправный диск
Последнее изменение:

Диагностировать и заменить неисправный диск

Вы можете проверить состояние диска с помощью атрибутов SMART (Self-Monitoring, Analysis and Reporting Technology). Если по результатам проверки диск окажется неисправным, вы можете заменить неисправный диск.

Проверить состояние диска

  1. Получите атрибуты SMART.
  2. Оцените значения атрибутов SMART.

1. Получить атрибуты SMART

Метод получения атрибутов SMART зависит от установленной на сервер операционной системы и от способа подключения диска к серверу:

  • без RAID-контроллера — диск подключается напрямую в материнскую плату или через HBA-контроллер;
  • через RAID-контроллер — диск подключается через контроллер Adaptec или MegaRAID, установленный на сервере.
  1. Подключитесь к серверу по SSH или через KVM-консоль.

  2. Установите пакет smartmontools — это набор утилит для мониторинга состояния HDD-дисков и SSD-накопителей, поддерживающих технологию SMART.

    apt-get install smartmontools
  3. Выведите информацию о дисках, подключенных к серверу:

    lsblk

    В ответе появится информация о дисках. Запомните или скопируйте идентификаторы дисков. Например:

    NAME        MAJ:MIN RM   SIZE RO TYPE MOUNTPOINTS
    sda 8:0 0 1.8T 0 disk
    └─sda1 8:1 0 1.8T 0 part /mnt/data
    sdb 8:16 0 931.5G 0 disk
    └─sdb1 8:17 0 931.5G 0 part /mnt/backup
    nvme0n1 259:0 0 465.8G 0 disk
    ├─nvme0n1p1 259:1 0 512M 0 part /boot/efi
    ├─nvme0n1p2 259:2 0 16G 0 part [SWAP]
    └─nvme0n1p3 259:3 0 449.3G 0 part /

    Здесь sda, sdb, nvme0n1 — идентификаторы дисков.

  4. Запустите чтение атрибутов SMART. Команда для запуска зависит от интерфейса диска:

    • для SATA:
    smartctl -iA /dev/<disk_id>

    Укажите <disk_id> — идентификатор диска, который вы скопировали на шаге 3.

    • для NVME:
    nvme smart-log /dev/<disk_id>

    Укажите <disk_id> — идентификатор диска, который вы скопировали на шаге 3.

2. Оценить атрибуты SMART

Диск считается неисправным, если хотя бы один из атрибутов SMART подходит под указанные условия.

Описание атрибутаПолеЗначение атрибута
5 Reallocated_Sector_CtКоличество секторов, переназначенных из-за ошибокRAW_VALUE> 0
7 Seek_Error_RateЧастота ошибок при позиционировании блока головокVALUE< 45
9 Power_on_hoursНаработка часовRAW_VALUE> 43800
10 Spin_Retry_CountЧисло повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачнойRAW_VALUE> 10
197 Current_Pending_SectorКоличество секторов в очереди на переназначениеRAW_VALUE> 0
198 Offline_UncorrectableКоличество секторов на диске, которые контроллер диска пытался исправить самостоятельноRAW_VALUE> 0

Заменить неисправный диск

Установить неисправность диска можно в результате проверки состояния диска. Если в результате оценки атрибутов SMART диск оказался неисправен, вы можете инициировать его замену. Для этого:

  1. Получите серийный номер неисправного диска.
  2. Согласуйте замену диска.
  3. Удалите диск из RAID-массива.
  4. Подсветите диск.
  5. Проверьте диск в системе.
  6. Добавить диск в RAID-массив.

1. Получить серийный номер неисправного диска

  1. Подключитесь к серверу по SSH или через KVM-консоль.

  2. Получите серийный номер неисправного диска, для этого выведите информацию о дисках:

    lsblk -o name,serial,model

    В ответе появится информация о дисках. Скопируйте серийный номер неисправного диска. Например:

    NAME    SERIAL            MODEL
    sdb S0H0N0XYZ123456 Samsung SSD 970 EVO Plus 500GB
    nvme0n1 S0D0NX0M001234 Samsung SSD 980 PRO 1TB

    Здесь SERIAL — серийный номер диска.

2. Согласовать замену диска

  1. Создайте тикет. В тикете укажите:

  2. Если замена диска будет согласована, сотрудник Selectel уточнит удобное для вас время и продолжительность проведения работ. Продолжительность работ потребуется для определения времени подсветки диска.

3. Удалите диск из RAID-массива

Если диск находится в RAID-массиве, удалите диск из массива.

4. Подсветить диск

В назначенное для проведения работ время мы сообщим вам в тикете о готовности приступить к замене диска.

Если диск не удастся подсветить и инженеры не смогут его идентифицировать по серийному номеру, то для замены диска потребуется выключить сервер. В этом случае мы сообщим о проблеме при идентификации диска и согласуем время выключения сервера в тикете.

Чтобы подсветить диск, создайте на него нагрузку, например запустите операцию записи или чтения. Если извлечь диск в то время, когда выполняются эти операции, будут ошибки чтения. Это нормальное поведение, так как команда пытается получить доступ к данным на диске, который уже извлечен.

  1. Подключитесь к серверу по SSH или через KVM-консоль.

  2. Выведите информацию о дисках, подключенных к серверу:

    lsblk

    В ответе появится информация о дисках. Запомните или скопируйте идентификатор диска. Например:

    NAME        MAJ:MIN RM   SIZE RO TYPE MOUNTPOINTS
    sda 8:0 0 1.8T 0 disk
    └─sda1 8:1 0 1.8T 0 part /mnt/data
    sdb 8:16 0 931.5G 0 disk
    └─sdb1 8:17 0 931.5G 0 part /mnt/backup
    nvme0n1 259:0 0 465.8G 0 disk
    ├─nvme0n1p1 259:1 0 512M 0 part /boot/efi
    ├─nvme0n1p2 259:2 0 16G 0 part [SWAP]
    └─nvme0n1p3 259:3 0 449.3G 0 part /

    Здесь sda, sdb, nvme0n1 — идентификаторы дисков.

  3. Подсветите диск:

    dd if=/dev/<disk_id> of=/dev/null

    Укажите <disk_id> — идентификатор диска, который вы скопировали на шаге 2.

5. Проверить диск в системе

  1. Дождитесь в тикете сообщения о том, что диск заменен.

  2. Подключитесь к серверу по SSH или через KVM-консоль.

  3. Убедитесь, что диск инициализировался в системе:

    lsblk
  4. Если диск отсутствует в списке, перезагрузите сервер. Если после перезагрузки диск не инициализировался в системе, сообщите об этом в тикете.

6. Добавить диск в RAID-массив

Если диск был в RAID-массиве, добавьте замененный диск в массив.