У нас есть пара эти устройства SuperMicro MicroCloud.
Всего у нас есть 16 серверов (2x8), которые случайным образом выводят эти сообщения в dmesg:
[4661350.802707] ata2.00: failed command: WRITE FPDMA QUEUED
[4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out
[4661350.802735] res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error)
[4661350.802821] ata2.00: status: { DRDY }
Кажется, все нормально, даже из-за ошибок, но игнорировать их очень неправильно. В основном это происходит в периоды высокой активности диска.
На одном сервере он случайным образом останавливался, даже при высокой активности диска.
Google предполагает, что это может быть из-за ослабленных разъемов или сбоев дисков, но это происходит даже на 16 разных серверах с разными типами жестких дисков (восемь используют диски WD Black SATA 7200 об / мин, а еще восемь используют VelociRaptors на 10000 об / мин).
Мы пробовали использовать два разных ядра Linux: 2.6.32 (Debian Squeeze) и 3.2.44 (Debian Wheezy).
Производитель сервера предлагает обновить BIOS до последней версии, но мы уже работаем с ней.
Итак, мы застряли :) У кого-нибудь есть предложения?
Полный dmesg: http://pastebin.com/Z9k1kXbc
Обновить: Джим Гаррисон указал мне на Задайте вопрос Ubuntu где упоминаются неисправные чипсеты Intel. Теперь я беспокоюсь, что это влияет на нас, хотя это было обнаружено еще в 2011 году. (Серверы были построены в 4 квартале 2012 года, но SuperMicro могла иметь старую партию с 2011 года - они делают свои собственные материнские платы).
"lspci" дает мне это:
00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07)
00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)
Новостная статья софтпедии упоминает, что "rev04" затронут. Должен ли я понять из "rev 07" в lspci, что мы не затронуты?
Ошибки Intel с июня 2013 г. упомянуть некоторые похожие проблемы:
Из-за проблем с конструкцией схемы в наборе микросхем Intel серии 6 и наборе микросхем серии Intel C200 износ электрического срока службы может повлиять на распределение тактовой частоты для портов SATA 2–5. Со временем это может проявиться как функциональная проблема на портах SATA 2–5.
Наборы микросхем называются "Набор микросхем Intel® Q67", "Набор микросхем Intel® Q65" и т. Д. В списке исправлений. Как я могу узнать, какой у меня тип набора микросхем (с таким названием), из командной строки Debian?
Обновить: Я обнаружил исправления для чипсета, Думаю. (Это BD82C602J). Похоже, здесь нет ничего серьезного.
Для меня это определенно похоже на проблему с контроллером. Надеюсь, у вас есть гарантия. Это ошибка шины, а не отказ привода, как это обычно бывает с неисправными платами контроллера привода и крайними кабелями (или объединительными платами); похоже это системная плата.
Вы также можете попробовать перепрограммировать BIOS (даже с той же версией), чтобы исключить какое-либо повреждение BIOS.
Я считаю, что результатом этого будет просто сброс и продолжение, поэтому вам может не о чем беспокоиться, хотя это отрицательно повлияет на производительность. Со временем он также может ухудшиться.