Назад | Перейти на главную страницу

Случайные сбои на моем сервере WIndows

На этой неделе я получаю любопытные случайные сбои на одной из моих машин с Windows. Сбой всегда заканчивается BSOD, но со случайными кодами ошибок в случайных системных драйверах. Нет записи в журнале событий.

Итак, первое предположение - это память, но я понял, что внутри только один SSD-диск. Я не верю никаким данным SMART с дисков, но на этот раз, возможно, это тот случай, когда мне следует. Что вы думаете? Самотестирование диска с помощью Parted magic прошло нормально. Я не могу позволить себе пройти тест на запись.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   120   120   050    Pre-fail  Always       -       0/0
  5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   095   095   000    Old_age   Always       -       4581h+05m+42.650s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       290
171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       11
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       1
181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   128   129   000    Old_age   Always       -       128 (0 127 0 129 0)
195 ECC_Uncorr_Error_Count  0x001c   100   100   000    Old_age   Offline      -       0/0
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   100   100   000    Old_age   Offline      -       0/0
204 Soft_ECC_Correct_Rate   0x001c   100   100   000    Old_age   Offline      -       0/0
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0013   100   100   010    Pre-fail  Always       -       0
233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       1319
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       944
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       944
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       1317


Model Family:     SandForce Driven SSDs
Device Model:     Corsair Force 3 SSD

У меня есть это, ребята. В этих SSD есть огромная ошибка, связанная с спящим режимом. Если диск переходит в спящий режим, иногда может возникнуть проблема с его пробуждением, поскольку он игнорирует оператор COM_WAK. Я не знаю, почему он начал это делать сейчас, возможно, это было вызвано обновлением Windows.

Однако я обновил каждую прошивку системы, и после обновления прошивки дисков до версии 5.3 сбои исчезли.

Делал хоть дамп памяти? Если нет, проверьте, настроена ли ваша система для создания дампов памяти, дождитесь, пока это повторится снова, и используйте Windbg для просмотра файла memory.dmp.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
194 Temperature_Celsius     0x0022   128   129   000    Old_age   Always       -       128 (0 127 0 129 0)

Если предположить, что это действительно так, проблема в том, что ваш компьютер нагревается достаточно, чтобы вскипятить воду. Итак, что вам нужно сделать, так это приобрести подходящий чайник для кипячения воды и держать компьютер намного прохладнее, вместо того, чтобы использовать его для генерации пара.