Насколько надежны современные диски потребительского класса емкостью 2 ТБ?

Самые дешевые диски SATA имеют рейтинг «1 неисправимая ошибка чтения на 10 ^ 14 бит чтения».

Что это значит?

10 ^ 14 бит составляет всего 12,5 ТБ. Если у меня есть полный диск емкостью 2 ТБ и я копирую его на второй диск, существует ли на самом деле примерно 1/6 вероятность того, что один из файлов поврежден?

Если это произойдет, будет ли отмечен и перераспределен затронутый блок? Я так думаю, потому что, если чтение будет успешным при повторной попытке, это не будет неисправимой ошибкой чтения.

Однако я использую много таких дисков в течение нескольких лет, я не заметил увеличения количества сбойных блоков, а также журналы RAID-контроллера не показывают проблем с чтением.

РЕДАКТИРОВАТЬ: Контроллеры RAID выполняют еженедельное патрульное чтение каждого диска, что составляет около 100 ТБ в год. Это все еще меньше 10 ^ 15 бит.

С другой стороны, за 2 года произошло 4 полных отказа дисков из 50, что увеличивает частоту ошибок.

У меня недостаточно статистически значимых данных, чтобы делать заявления, но в моем случае фактическая частота ошибок составляет от 10 ^ 14 до 10 ^ 15, что соответствует спецификации.

raid hard-drive

Статистика с учетом 1 ошибки чтения из 10 ^ 14 - это всего лишь точка статистических данных. Это не означает, что на каком-либо конкретном диске вы увидите ошибки, и не означает, что это обязательно происходит с начала срока службы диска до конца. Это только означает, что диск не имеет такого высокого рейтинга, как корпоративные диски, и, исходя из моего опыта (разработка корпоративных систем хранения), как потребительские, так и корпоративные диски также никогда не достигают полных значений MTBF. Я тоже не помню большой разницы между ними. Разница была небольшая, но небольшая.

Когда блок читается и происходит сбой, диск помещает этот сектор в список хранения. Когда сектор будет записан в следующий раз, будет предпринята попытка записи и сектор будет проверен, если это сработает, больше ничего не будет сделано. Если проверка не удалась, сектор будет перераспределен.

Во многих случаях диски и RAID могут исправлять поврежденные сектора на лету, даже до того, как они станут большой проблемой. Существует фоновое сканирование носителя на диске и очистка диска в массиве RAID, и оба эти действия работают для защиты данных. В корпоративных массивах хранения данных используются более тонкие проверки, чтобы гарантировать, что даже слегка проблемные сектора диска будут обработаны и исправлены.

Существуют и другие проблемы с использованием потребительских дисков в массиве RAID, TLER является одним из них, по сути, это означает, что вы можете потерять диск даже из-за одного плохого сектора, поскольку диск перестает отвечать, пока не удастся прочитать сектор. На самом деле TLER - это способ избежать того, чтобы RAID-массив вызвал сбой диска, когда это просто небольшая проблема с носителем. Если у вас включен TLER, диск быстро откажется от сектора и позволит RAID обрабатывать сбой на своем уровне.

Будьте осторожны с RAID и потребительскими дисками. В зависимости от вашего RAID-контроллера, он будет срабатывать, если диск слишком долго отвечает из-за отсутствия TLER.

Описано, что происходит с невосстанавливаемым блоком. Вот

Когда микропрограмма контроллера диска обнаруживает, что сектор неисправен или нестабилен, контроллер диска переназначает логический сектор на другой физический сектор. При нормальной работе жесткого диска обнаружение и повторное отображение поврежденных секторов должно происходить прозрачно для остальной системы и заранее, прежде чем данные будут потеряны. Однако следует помнить, что повреждение физического тела жесткого диска затрагивает не только одну область хранимых данных. Очень часто физические повреждения могут повлиять на части многих разных файлов.

Что касается вашего вопроса о 1/6 вероятности того, что блок поврежден, это верно для блока, однако операционные системы / файловые системы имеют свои собственные способы работы с плохими блоками и восстановления из них, поэтому это вполне возможно что ОС / ФС способна восстанавливать сбойный блок самостоятельно, при этом вы не замечаете повреждения файлов.

Это означает, что их контроль качества настроен таким образом, что вы можете ожидать, что на каждые 12,5 ТБ будет приходиться одно невосстановимое чтение. Это не означает, что он будет, просто то, что их контроль качества откалиброван.

Это имеет довольно серьезные последствия, когда вы рассматриваете группы RAID - набор дисков 5 + 1 RAID 5 объемом 2 ТБ приближается к этому числу. Для восстановления RAID требуется повторное сканирование всей группы RAID, поэтому ваши шансы на сбой восстановления становятся значительными. Частичные решения включают меньшие группы RAID или использование RAID 6, но это имеет свои последствия. (В частности, RAID-6, будучи умным, сожжет вас штрафом за запись, особенно на «более дешевых / медленных» дисках).

Вот почему «серверные диски» «такие дорогие» - одна из ключевых причин заключается в том, что они обычно имеют размер 1/10 ^ 16 - это значительно снижает вероятность сложного отказа.

Но вы должны заметить - только то, что ожидаемая частота ошибок составляет 12,5 ТБ, это не значит, что вам не повезет. RAID никогда не заменяет резервное копирование. (Но я подозреваю, что вы это уже знаете.)