ST9500420AS - dziwne wartości S.M.A.R.T. - jak zinterpretować - czy już awaria?

Question

Witam, przy sprawdzaniu wartości atrybutów S.M.A.R.T. dysku w moim laptopie (szczegóły dotyczące modelu poniżej) za pomocą linuksowego smartmontools (użyłem PartedMagic w ostatniej dostępnej wersji) zaniepokoiła mnie wartość atrybutu Reallocated_Event_Count. Całość wygląda tak: Zastanawia mnie,...

artaa · Accepted Answer

Zapytaj Migol21.

migol21 · Accepted Answer

Atrybut 196 ( C4 )
Reallocation Event Count
Ilość operacji remapowania (przenoszenia danych z uszkodzonego sektora do specjalnego zarezerwowanego obszaru - obszaru rezerwowego). Wartość RAW tego atrybutu określa łączną ilość prób transferu danych z relokowanego sektora do obszaru rezerwowego. Liczone są zarówno próby udane jak i nieudane.
Krytyczny: Tak (Im niższa wartość tym lepiej)

Atrybut 188 ( BC )
Command Timeout
Ilość przerwanych operacji z powodu nie odpowiadania dysku na komendy. Normalnie ten parametr powinien wynosić zero jeśli jest inaczej może to świadczyć o poważnych problemach z zasilaniem dysku (złączem zasilaczem ect.)
Krytyczny: Tak (Im niższa wartość tym lepiej)

Atrybut ID 192 ( C0 )
Power-off retract count
Ilość razy kiedy głowice są parkowane. Głowice mogą być parkowane nawet wtedy, gdy dysk nie jest wyłączony z prądu. (or Emergency Retract Cycle count - Fujitsu) Lub kiedy potrzebują zliczać cykle.
Krytyczny: Nie (Im niższa wartość tym lepiej)

Atrybut ID 193 ( C1 )
Load/Unload Cycle Count
Ilość cykli parkowania/wyparkowania ze strefy parkowania (Landing Zone). Niektóre dyski 2,5 calowe mają opcje parkowania głowicy przy bezczynności dłuższej niż np. 5 minut.
Krytyczny: Nie (Im niższa wartość tym lepiej)

Te parametry należy przeanalizować. Te próby przenoszeń widać są spowodowane nie problemami głowicy lub powierzchni.

migol21 · Accepted Answer

Ja bym na tym pracował ale stale monitorował.

helmud7543 · Answer

Wygląda na jakąś niestandardową wartość początkową, nie na awarię, ale poczekaj - może niech ktoś jeszcze się wypowie dla pewności.

artaa · Answer

Hmm, ciekawy HDD.
Może to C4 (196) jest od tego, że zbiera już uderzenia BF (221):

G-Sense Error Rate
Częstość błędów występujących podczas uderzeń. Atrybut ten przechowuje wskazania czujnika przeciążeń i podaje łączną ilość błędów występujących jako rezultat wewnętrznych przeciążeń (upuszczenia dysku, niewłaściwej instalacji, i t.p.).
Krytyczny: Nie

Reallocation Event Count
Ilość operacji remapowania (przenoszenia danych z uszkodzonego sektora do specjalnego zarezerwowanego obszaru - obszaru rezerwowego). Wartość RAW tego atrybutu określa łączną ilość prób transferu danych z relokowanego sektora do obszaru rezerwowego. Liczone są zarówno próby udane jak i nieudane.
Krytyczny: Tak

aknot · Answer

Tak testowo wytrząsłem laptopa w trakcie pracy (oczywiście backup jest) i wartość całkowita wyświetlana przez smartctl się nie zmieniła (wartość w nawiasie zmienia się non stop). Zauważyłem, że wartość całkowita zdaje się być w jakiś sposób skorelowana z cyklami włącz/wyłącz HDD - w trakcie pracy zdaje się nie zwiększać, ale po wyłączeniu maszyny na noc znowu wzrosła - teraz smartctl pokazuje tak: Kod: text Rozwiń Zaznacz wszystko Kopiuj do schowka SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE   1 Raw_Read_Error_Rate     0x000f   118   099   034    Pre-fail  Always       -       171452131   3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0   4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       76   5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0   7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3753177   9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       68938520068210  10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0  12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       75 184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0 187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0 188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       14 189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0 190 Airflow_Temperature_Cel 0x0022   068   053   045    Old_age   Always       -       32 (Min/Max 28/32) 191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       1 192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       5959 193 Load_Cycle_Count        0x0032   097   097   000    Old_age   Always       -       7922 194 Temperature_Celsius     0x0022   032   047   000    Old_age   Always       -       32 (0 17 0 0) 195 Hardware_ECC_Recovered  0x001a   051   043   000    Old_age   Always       -       171452131 196 Reallocated_Event_Count 0x000f   100   100   030    Pre-fail  Always       -       43 (47957, 0) 197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0 198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0 199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0 254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA _of_first_error # 1  Short offline       Completed without error       00%       102         - # 2  Vendor (0x50)       Completed without error       00%         0         - SMART Selective self-test log data structure revision number 1  SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS     1        0        0  Not_testing     2        0        0  Not_testing     3        0        0  Not_testing     4        0        0  Not_testing     5        0        0  Not_testing Selective self-test flags (0x0):   After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay. Wobec tego jeszcze raz pytanie - czy to awaria, czy jakiś niestandardowy feature twardziela, czy też parsowanie danych S.M.A.R.T. dla tego modelu twardziela bierze w łeb. Zaznaczam, że jest to twardziel dostarczony razem z ThinkPadem T410 - może Lenovo dodaje jakieś autorskie patche do firmware? Jeśli ktoś z Forumowiczów posiada jakiegoś w miarę nowego ThinkPada z dyskiem od Seagate, proszę o porównanie swoich wartości S.M.A.R.T. dla atrybutu C4 (Reallocated_Event_Count) z tym co jest u mnie. Przyznam, że zgłupiałem - no i nie wiem - reklamować, nie reklamować? Z jednej strony jest trzyletnia gwarancja, z drugiej dysk nie przejawia żadnych dziwnych zachowań, windowsiane monitory S.M.A.R.T. informują, że jest ok lub nie radzą sobie ze sparsowaniem atrybutu, linuksowy smartmon informuje, że jest źle... a ja nie wiem, której wersji się trzymać.

helmud7543 · Answer

Ale wartości Value i Treshold pokazują że jest ok (wartości przeliczone). Ja bym dał sobie spokój - wygląda to na niestandardową wartość surową a nie awarię samego urządzenia. Nawet awaria samego SMART (firmware) dałaby o sobie znać podczas normalnego używania.

Promuję tematy:
08.12.2024 Co nie podoba Ci się na elektroda.pl?

aknot · Answer

Z ciekawostek: HD Tune Pro (Trial) - aplikacja, do której mam jako takie zaufanie - wyraźnie parsuje dane RAW jako wartość niebezpieczną. Szczegóły na obrazku.

helmud7543 · Answer

Bardzo Cię przepraszam - oczywiście pokićkałem - cały czas miałem na myśli Relocated Sector Count patrząc, nie wiedzieć czemu, na wartość Seek Error Rate (myślałem, że Realocated Sector Count ma tak wysoką wartość surową). Coś z mózgiem chyba mam nie tak...
Do rzeczy.
Oczywiście, jak mówimy o Realocated Event Count (zliczanie "zdarzeń" a nie sektorów) to nie jest normalne, powinna zmieniać ilość sektorów niestabilnych i realokowanych, nawet biorąc pod uwagę że zliczane są także nieudane próby. Nie wiem jednak o co tu chodzi, wiem jedynie, że te parametry nie powinny się tak zachowywać.
P. S. Interpretacje (ocena dobry/zły/uwaga) programów traktuj z "przymrużeniem oka" - nie radzą sobie z tym zupełnie (HD Tune większość zdrowych dysków Seagate ocenia na "uwaga", SpeedFan nawet nowe dyski potrafi ocenić kondycyjnie na 70%, Victoria potrafi pokazać zupełne bzdury, najbardziej rzetelny wydaje mi się Crystal Disk Info, Linuxowych narzędzi nie próbowałem). Ja robię tak: patrzę na wartości RAW które są powyżej zera, orientuję się za co odpowiada parametr, po czym patrzę na kolumnę Value (wartość przeliczona, zmienia się zależnie od stanu dysku), Worst (najgorsza zanotowana wartość przeliczona) i Treshold (wartość przeliczona graniczna - jeżeli Value zbliża się do Worst, przeważnie zmniejszając się, to jest źle, jak przekroczy, jest bardzo źle). To tak z grubsza.

Promuję tematy:
08.12.2024 Co nie podoba Ci się na elektroda.pl?

aknot · Answer

Spoko, jak to mówią nie myli się ten, kto nic nie robi Bardzo zastanawiające jest to, że wartość odpowiedzialna za liczbę prób realokacji zmienia się (według części monitorów S.M.A.R.T. rośnie), podczas gdy ani liczba zrealokowanych sektorów, ani liczba aktualnie realokowanych, ani liczba nie nadających się do realokacji, ani rozmiar dostepny dla użytkownika nie zmieniają się.

helmud7543 · Answer

Właśnie dlatego, że Realocated Event Count bierze pod uwagę także nieudane próby relokacji. Moje pytanie brzmi: dlaczego się nie udały (skoro nie ma realokowanych) i po co w ogóle próbuje realokować skoro nie problemów z odczytem (nie ma sektorów niestabilnych)? Może to jednak problem z firmware?

Promuję tematy:
08.12.2024 Co nie podoba Ci się na elektroda.pl?

aknot · Answer

Zastanawiam się, czy na dużą liczbę parkowań głowicy nie ma przypadkiem wpływu dostarczana z ThinkPadami aplikacja współpracująca z wbudowanym w laptopa (nie w HDD) akcelerometrem wyłączająca dysk twardy w przypadku wykrycia wstrząsu (z laptopa często korzystam w terenie). @migol21 - reasumując, czy przy Twoim stanie wiedzy i doświadczeniu radziłbyś wspomnianym dyskiem zainteresować serwis, podjąć działania na własną rękę (np. wymiana firmware), czy póki co nie przejmować się? Ja zazwyczaj (może na wyrost, ale z serwerowymi HDD nie ma żartów) stosuję zasadę: realokowane sektory = obniżona wiarygodność dysku, nieudany pełny test S.M.A.R.T = dysk do serwisu, a w przedstawionym przypadku nie bardzo wiem jak postąpić i jestem zmuszony podeprzeć się opinią praktyka.

migol21 · Answer

Czy oprócz SMART-a jest więcej przesłanek do zaniepokojenia ?

aknot · Answer

Nie stwierdziłem nic poza S.M.A.R.T. - podsumowując:
- zmniejszenie pojemności dostępnej dla użytkownika - brak
- uszkodzone sektory widoczne dla użytkownika - brak
- problemy przy starcie dysku - brak
- podejrzane odgłosy - brak
- problemy ze stabilnością pracy - brak
- błędy sum kontrolnych (crc) - brak

Jeśli chodzi S.M.A.R.T:
- Reallocated_Event_Count - całkowita wartość rośnie średnio o 2-3 dziennie
- Power-Off_Retract_Count i Load_Cycle_Count - rosną o kilkadziesiąt wartości dziennie

Bezpieczeństwo danych:
- backup wykonywany jest nieregularnie z racji na dość duże ilości danych często zmiennych (obrazy maszyn wirtualnych, pliki bazodanowe etc.)

migol21 · Answer

tu możesz mieć odpowiedź wymiana dysku może nie przynieść efektów ale zmiana sprzętu możliwe.

aknot · Answer

Podejrzewasz jakieś problemy z kontrolerem w laptopie, czy raczej to, że aplikacja "bruździ"?
Zawsze mogę do testów podłączyć jakiś inny HDD z czystym S.M.A.R.T. i zobaczyć jak się sytuacja rozwinie, ale przyznaję szkoda mi na to czasu, bo to maszynka wykorzystywana do pracy jest.

migol21 · Answer

Wszystko zależy od możliwości i potrzeb oraz zakresu ochrony i pewności działania.

aknot · Answer

Zależy mi na dużej niezawodności, bo przechowywane dane są mocno problematyczne w backupowaniu (jak pisałem duże zmieniające się pliki - bazy danych i maszyny wirtualne)

migol21 · Answer

To powinieneś mieć RAID-1 w minimalnym wydaniu a nie Laptop przenośny . Są laptopy z dwoma dyskami, które można podłączać w RAID ale z gruntu rzeczy laptop nie należy do urządzeń bezpiecznych niezawodnych i wydajnych razem. Chyba że to te wojskowe.

aknot · Answer

No aż na tak wysokiej niezawodności w laptopie (w stacjonarce bez RAID-a 1 produkcyjnej pracy sobie nie wyobrażam, bo przerywałbym ją kompulsywnym wykonywaniem backupów), żeby się redundancją podpierać mi nie zależy.

Zależy mi przede wszystkim na tym, by orzec czy wspomniany dysk traktować jako zagrożony awarią/awaryjny i atakować serwis czy jeszcze dać sobie "na luz" i traktować go jako sprawny?

Tak na marginesie w ThinkPadzie da się - zamiast napędu DVD-RW w niszy multibay można zainstalować kieszonkę do HDD i zestawić RAID-a w poziomie 1, JBOD lub 0 (prawdopodobnie nawet "sprzętowego" - cudzysłowie, bo to będzie zwykły SATA hostraid), co jednak okupujemy skróceniem czasu pracy na baterii.

aknot · Answer

Tak też zamierzam uczynić.

Co ciekawsze - dorwałem zapisy S.M.A.R.T. prawie takiego samego dysku - ten sam model, inna wersja firmware i oczywiście inny s/n.

W tymże parametr Reallocated_Event_Count nie w ogóle podany w atrybutach S.M.A.R.T. i do tego różnił się pojemnością dla użytkownika - była mniejsza niż w moim, pomimo że ilość remapowanych i uszkodzonych sektorów była zerowa.

Możliwe, że inna rewizja tego samego modelu - niestety nie mam dostępu do etykietki, żeby wyczytać więcej informacji o produkcie niż sam dysk podaje.

Doświadczenie uczy więc, że niby ten sam model, ale dysk dyskowi nie równy

aknot · Answer

Jeszcze jedno pytanie - na koniec wątku. Czy takie odczyty S.M.A.R.T. są wystarczającą podstawą do oddania dysku na gwarancję?

ST9500420AS - dziwne wartości S.M.A.R.T. - jak zinterpretować - czy już awaria?

Post #1

Post #2

Post #3

Post #4

Post #5

Post #6

Post #7

Post #8

Post #9

Post #10

Post #11

Post #12

Post #13

Post #14

Post #15

Post #16

Post #17

Post #18

Post #19

Post #20

Post #21

Post #22

Post #23

Podsumowanie tematu