Назад | Перейти на главную страницу

Как мне записать на жесткие диски?

Google сделал очень тщательное изучение о сбоях жестких дисков, которые обнаружили, что значительная часть жестких дисков выходит из строя в течение первых 3 месяцев интенсивного использования.

Мы с коллегами думаем, что можем реализовать процесс прожига для всех наших новых жестких дисков, который потенциально может избавить нас от потери времени на новые, непроверенные диски. Но прежде чем внедрять процесс приработки, мы хотели бы получить некоторое представление от более опытных людей:

РЕДАКТИРОВАТЬ: из-за характера бизнеса RAID-массивы невозможно использовать большую часть времени. Нам приходится полагаться на отдельные диски, которые довольно часто рассылаются по стране. Мы делаем резервные копии дисков, как только можем, но мы все равно сталкиваемся со сбоями здесь и там, прежде чем у нас появится возможность сделать резервную копию данных.

ОБНОВИТЬ

Моя компания уже давно внедрила процесс выжигания, и он оказался чрезвычайно полезным. Мы немедленно записываем все новые накопители, которые есть на складе, что позволяет нам обнаруживать множество ошибок до истечения срока гарантии и до их установки в новые компьютерные системы. Также оказалось полезным проверить, что диск вышел из строя. Когда на одном из наших компьютеров возникают ошибки, а основным подозреваемым является жесткий диск, мы повторно запускаем процесс записи на этом диске и проверяем все ошибки, чтобы убедиться, что именно диск был проблемой, прежде чем запускать процесс RMA или бросать это в хлам.

Наш процесс приработки прост. У нас есть специальная система Ubuntu с большим количеством портов SATA, и мы запускаем плохие блоки в режиме чтения / записи с 4 проходами на каждом диске. Чтобы упростить задачу, мы написали сценарий, который выводит предупреждение «ДАННЫЕ БУДУТ УДАЛЕНЫ СО ВСЕХ ДИСКОВ», а затем запускает плохие блоки на всех дисках, кроме системного.

IMNSHO, вы не должны полагаться на процесс выгорания, чтобы отсеять плохие диски и «защитить» ваши данные. Разработка этой процедуры и ее реализация потребуют времени, которое можно было бы лучше использовать где-нибудь еще, и даже если диск пройдет приработку, через несколько месяцев он все равно может выйти из строя.

Вы должны использовать RAID и резервное копирование для защиты своих данных. Как только это будет установлено, позвольте ему беспокоиться о дисках. Хорошие RAID-контроллеры и подсистемы хранения будут иметь процессы очистки, которые время от времени просматривают данные и гарантируют, что все в порядке.

Как только обо всем этом позаботятся, нет необходимости выполнять очистку диска, хотя, как уже упоминали другие, не повредит провести тест нагрузки системы, чтобы убедиться, что все работает так, как вы ожидаете. Я бы вообще не беспокоился об отдельных дисках.


Как уже упоминалось в комментариях, нет смысла использовать жесткие диски для вашего конкретного случая использования. Отправка их с большей вероятностью вызовет ошибки данных, которых не будет, когда вы сделали запись.

Лента предназначена для транспортировки. Вы можете получить 250 МБ / с (или до 650 МБ / с при сжатии) с одним диском IBM TS1140, который должен быть быстрее, чем ваш жесткий диск. И больше - один картридж может дать вам до 4 ТБ (без сжатия).

Если вы не хотите использовать ленту, используйте SSD. С ними можно обращаться гораздо жестче, чем с жесткими дисками, и они удовлетворяют всем вашим требованиям.


После всего этого вот мои ответы на ваши вопросы:

  • Насколько важно записать на жесткий диск, прежде чем вы начнете им пользоваться?
    Не за что.
  • Как реализовать процесс приработки?
    • Как долго вы записываете на жесткий диск?
      Один-два захода.
    • Какое программное обеспечение вы используете для записи дисков?
      Простой запуск, скажем, shred и badblocks Сделаю. После этого проверьте данные SMART.
  • Сколько стресса слишком много для процесса выгорания?
    Никакого стресса не бывает слишком много. Вы должны иметь возможность бросать что угодно на диск, не взрывая его.

Насколько важно записать на жесткий диск, прежде чем вы начнете им пользоваться?

Если у вас есть хорошая резервная копия и хорошие системы высокой доступности, то не очень. Поскольку восстановление после сбоя должно быть довольно простым.

Как реализовать процесс приработки? Какое программное обеспечение вы используете для записи дисков? Сколько стресса слишком много для процесса выгорания?

Я обычно бегу плохие блоки против привода или новой системы, когда я ее получу. Я буду запускать его всякий раз, когда воскресу компьютер из кучи запчастей. Такая команда (badblocks -c 2048 -sw /dev/sde) фактически будет записывать в каждый блок 4 раза каждый раз с другим шаблоном (0xaa, 0x55, 0xff, 0x00). Этот тест ничего не делает для проверки множества случайных операций чтения / записи, но он должен доказать, что каждый блок может быть записан и прочитан.

Вы также можете запустить Бонни ++, или иометр которые являются инструментами для сравнительного анализа. Они должны попытаться немного напрячь ваши диски. Диски не должны выходить из строя, даже если вы попытаетесь их максимально использовать. Так что вы можете попробовать посмотреть, на что они способны. Но я этого не делаю. Получение теста производительности ввода-вывода вашей системы хранения прямо во время установки / настройки может быть очень полезным в будущем, когда вы будете искать проблемы с производительностью.

Как долго вы записываете на жесткий диск?

На мой взгляд, достаточно одного запуска плохих блоков, но я считаю, что у меня очень сильная система резервного копирования, и мои потребности в высокой доступности не так высоки. Я могу позволить себе некоторое время простоя, чтобы восстановить работу большинства поддерживаемых мной систем. Если вы так обеспокоены, что думаете, что может потребоваться многопроходная установка, то вам, вероятно, в любом случае следует иметь RAID, хорошие резервные копии и хорошую настройку высокой доступности.

Если я спешу, могу пропустить прожиг. Мои резервные копии и RAID должны быть в порядке.

Учитывая ваше разъяснение, не похоже, что какой-либо процесс выгорания принесет вам пользу. Преобразователи выходят из строя в первую очередь из-за механических факторов, обычно из-за нагрева и вибрации; не из-за какой-то скрытой бомбы замедленного действия. Процесс «приработки» проверяет среду установки, как и все остальное. Как только вы переместите вещь, вы вернетесь туда, откуда начали.

Но вот несколько советов, которые могут вам помочь:

Накопители для ноутбуков обычно более устойчивы к толчкам и вибрации, чем накопители для настольных ПК. По этой причине мои друзья, работающие в центрах восстановления данных, всегда отправляют данные клиентам на дисках ноутбуков. Я никогда не проверял этот факт, но кажется, что это «общеизвестный» факт в некоторых отраслях.

Флэш-накопители (например, флэш-накопители USB) являются наиболее ударопрочными из всех носителей, которые вы найдете. Еще менее вероятно, что вы потеряете данные при передаче, если вы используете флэш-носитель.

Если вы отправляете привод Winchester, сделайте сканирование поверхности перед его использованием. Или еще лучше, просто не использовать его. Вместо этого вы можете обозначить определенные диски как «транспортные», которые видят все нарушения, но на которые вы не полагаетесь для обеспечения целостности данных. (То есть: копирование данных на диск для отправки, копирование после отправки, очень контрольные суммы с обеих сторон и тому подобное).

Я не согласен со всеми ответами, которые в основном гласят: «Не беспокойтесь о выгорании, имейте хорошие резервные копии».

Хотя у вас всегда должны быть резервные копии, вчера я потратил 9 часов (сверх моей обычной 10-часовой смены) на восстановление из резервных копий, потому что система работала с дисками, которые не были записаны.

В конфигурации RAIDZ2 было 6 дисков (эквивалент ZFS для RAID-6), и у нас было 3 диска, умерших в течение 18 часов на коробке, которая проработала примерно 45 дней.

Лучшее решение, которое я нашел, - это приобрести диски у одного конкретного производителя (не смешивать и сочетать), а затем запустить предоставленный им инструмент для проверки дисков.

В нашем случае мы покупаем Western Digital и используем их диагностику диска на основе DOS с загрузочного ISO. Мы запускаем его, запускаем опцию записи случайного мусора на весь диск, затем запускаем короткий тест SMART, а затем длинный тест SMART. Обычно этого достаточно, чтобы отсеять все плохие сектора, перераспределить чтение / запись и т. Д.

Я все еще пытаюсь найти достойный способ «запаковать» его, чтобы запустить его на 8 дисках за раз. Можно просто использовать dd if = / dev / urandom of = / dev / something в Linux или badblocks.

РЕДАКТИРОВАТЬ: Я нашел более приятный способ «запаковать» его. Я наконец-то дошел до настройки загрузочного сервера PXE в нашей сети для решения конкретной задачи и заметил, что с Ultimate Boot CD можно загружать PXE. Теперь у нас есть несколько ненужных машин, которые можно загрузить с помощью PXE для выполнения диагностики диска.

Ваш процесс неправильный. Вам следует использовать рейдовые массивы. Там, где я работаю, мы сделали рейдовые массивы повышенной прочности, предназначенные для транспортировки. Это не ракетостроение.

Ударная установка приводов в негабаритные корпуса с большими резиновыми виброизоляторами значительно повысит надежность. (Накопители Seagate constellation-es, например, рассчитаны на удар 300G, но только на вибрацию 2G, в нерабочем состоянии: поэтому транспортировочный ящик должен изолировать привод от вибрации. http://www.novibes.com/Products&productID=62 или http://www.novibes.com/Products&productId=49 [часть № 50178])


Однако, если вы действительно хотите прожигать жесткие диски во время тестирования, то готово.

Я работал с такими системами, как жесткие диски, и обнаружил некоторые проблемы, но ...

Для ускоренного тестирования печатных плат на протяжении всего жизненного цикла с целью выявления неисправностей ничто не сравнится с некоторыми циклами нагрева / охлаждения. (работа с циклами «горячий-холодный» работает даже лучше ... но вам это сложнее, особенно с банками жестких дисков)

Купите себе камеру окружающей среды, достаточно большую для количества приводов, которые вы приобретаете за раз. (Это довольно дорого, дешевле было бы доставить рейдовые массивы). Вы не можете экономить на тестовых камерах, вам понадобится контроль влажности и программируемые пандусы.

Запрограммируйте два повторяющихся изменения температуры, от минимальной температуры хранения до максимальной температуры хранения, сделайте наклон достаточно крутым, чтобы расстроить разработчика приложений от производителя жесткого диска. 3 цикла «холод-тепло» за 12 часов должны привести к довольно быстрому отказу дисков. Запустите диски как минимум на 12 часов в таком режиме. Если что-нибудь потом будет работать, я буду удивлен.

Я не придумал это: в одном месте, где я работал, у нас был инженер-технолог, который сделал это, чтобы получить больше продуктов с тем же испытательным оборудованием, был огромный всплеск ошибок при тестировании, но количество погибших по прибытии упало практически до нуль.

Насколько важно записать на жесткий диск, прежде чем вы начнете им пользоваться?

Это зависит.
Если вы используете его в RAID, который обеспечивает избыточность (1, 5, 6, 10)? Не очень.
Если вы используете его standaolone? Немного, но вам лучше просто запустить smartd или что-нибудь, чтобы вместо этого контролировать его, по крайней мере, на мой взгляд.

Это, естественно, приводит к моему ответу на "Как реализовать процесс приработки?" -- Я не.
Вместо того, чтобы пытаться «записать» диски, я использую их в избыточных парах и использую прогнозирующий мониторинг (например, SMART), чтобы сообщить мне, когда диск становится шатким. Я обнаружил, что дополнительное время, необходимое для выполнения полной записи (на самом деле тренировки всего диска), значительно дороже, чем устранение отказа диска и его замена.
Сочетание RAID и хороших резервных копий, ваши данные должны быть очень безопасными, даже когда имеешь дело с младенческой смертностью (или другой конец лечения в ванне, когда у вас начинают умирать диски от старости)

Spinrite (grc.com) будет читать и записывать все данные на диске. Это хорошо для нового диска, даже если вы не пытаетесь заставить его выйти из строя. Для работы на уровне 4 требуется много времени, обычно несколько дней для дисков текущего размера. Я также должен добавить, что он неразрушающий. Фактически, если у него есть данные в плохих местах, он будет перемещать и восстанавливать их. Конечно, вы бы никогда не запустили его на SSD.

Я уверен, что раз в неделю тестирования производительности и проверки ошибок будет достаточно для «прожигания» жестких дисков. Хотя с момента вашего поста я о таком не слышал.

Цитируется из "6_6_6" на Stroagereview.com

  1. Подключите диск к работающей системе. Прочтите значения SMART.
  2. Проведите короткую самопроверку SMART. Проведите длительную самопроверку SMART.
  3. Нулевое заполнение / протрите диск с помощью утилиты производителя. Весь привод.
  4. Запустите HDTach для полного чтения / записи. Эверест / Сандра и т. Д. Проходят стресс-тесты. Запустите часть жесткого диска непрерывно в течение нескольких часов.
  5. Запустите Victoria for Windows Read / Write test и убедитесь, что нет медленных секторов.
  6. Перейдите в DOS. Запустите MHDD, запустите тест LBA и посмотрите, нет ли медленных секторов. Запустите тест чтения / записи / проверки. Запустите внутреннюю команду безопасного стирания ATA диска.
  7. Сделайте полный формат.
  8. Сравните значения SMART. Если нет аномалий, все хорошо. Установите свою ОС и продолжайте.

В целом, я лично считаю, что это плохая идея.

Источник: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/

Во-первых, я согласен с другими авторами в том, что ваш вариант использования предполагает, что ленточные накопители будут лучшим вариантом.

Если это невозможно, то, если вам нужно перебросить диски по стране, настоящий RAID, похоже, не вариант, так как вам придется перевозить гораздо больше дисков, что увеличивает риск сбоя. Однако как насчет простой схемы зеркалирования, когда один диск отправляется, а другой остается на исходном сайте?

Затем, если диск выйдет из строя по прибытии, можно будет сделать и отправить новую копию. Если диск исправен по прибытии, запасной диск можно использовать повторно - либо для отправки, либо для резервного копирования исходных данных.

Вы действительно не сказали, почему диски поставляются - это просто способ отправки данных, есть ли у них полные образы приложений / ОС, готовые к загрузке на ПК, или что-то еще?

Я согласен с другими ответами, что RAID или резервное копирование лучше, чем сканирование, из-за рисков доставки диска, вызывающих механические проблемы.

Более общий способ выразить это было бы «полагаться на избыточные данные для обнаружения и исправления ошибок» - либо отправить 2 диска для каждого набора данных, либо отправить избыточные данные на одном диске. Что-то вроде Parchive позволяет добавить к данным определенный уровень избыточности, обеспечивая восстановление, даже если большая часть данных повреждена. Поскольку в наши дни диски довольно дешевы, просто покупка диска большего размера, чем строго требуется, часто будет дешевле, чем сканирование диска, доставка запасного диска или доставка двух дисков.

Это защитит от некатастрофических сбоев накопителя - однако все же лучше не использовать повторно отправленный накопитель, за исключением транспортировки, как было предложено ранее, т.е. рассматривать его как ленту, которую необходимо извлечь на «настоящий» накопитель, который навсегда установлен и никуда не отгружен.

Это должно позволить вам отправлять большой объем данных (или даже образы приложений / ОС) и снизить влияние дисковых ошибок до любого экономического уровня.