logo elektroda
logo elektroda
X
logo elektroda
REKLAMA
REKLAMA
Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

ST9500420AS - dziwne wartości S.M.A.R.T. - jak zinterpretować - czy już awaria?

aknot 14 Maj 2011 18:25 3885 22
REKLAMA
  • #1 9505233
    aknot
    Poziom 10  
    Posty: 12
    Witam,

    przy sprawdzaniu wartości atrybutów S.M.A.R.T. dysku w moim laptopie (szczegóły dotyczące modelu poniżej) za pomocą linuksowego smartmontools (użyłem PartedMagic w ostatniej dostępnej wersji) zaniepokoiła mnie wartość atrybutu Reallocated_Event_Count. Całość wygląda tak:

    
    root@PartedMagic:~# smartctl -a /dev/sda
    smartctl 5.39.1 2010-01-28 r3054 [i486-slackware-linux-gnu] (local build)
    Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
    
    === START OF INFORMATION SECTION ===
    Model Family:     Seagate Momentus 7200.4 series
    Device Model:     ST9500420AS
    Serial Number:    (...)
    Firmware Version: 0003LVM1
    User Capacity:    500,107,862,016 bytes
    Device is:        In smartctl database [for details use: -P show]
    ATA Version is:   8
    ATA Standard is:  ATA-8-ACS revision 4
    Local Time is:    Sat May 14 17:42:20 2011 UTC
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    (smart capability info wyciąłem, aby skrócić posta)
    
    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000f   114   099   034    Pre-fail  Always       -       63705793
      3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
      4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       74
      5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x000f   065   060   030    Pre-fail  Always       -       3607676
      9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       130442451746921
     10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       73
    184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
    188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       14
    189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
    190 Airflow_Temperature_Cel 0x0022   062   053   045    Old_age   Always       -       38 (Lifetime Min/Max 37/38)
    191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       1
    192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       5565
    193 Load_Cycle_Count        0x0032   097   097   000    Old_age   Always       -       7443
    194 Temperature_Celsius     0x0022   038   047   000    Old_age   Always       -       38 (0 17 0 0)
    195 Hardware_ECC_Recovered  0x001a   051   043   000    Old_age   Always       -       63705793
    196 Reallocated_Event_Count 0x000f   100   100   030    Pre-fail  Always       -       40 (3679, 0)
    197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
    254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
    # 1  Short offline       Completed without error       00%       102         -
    # 2  Vendor offline      Completed without error       00%         0         -
    


    Zastanawia mnie, że Reallocated_Event_Count jest niezerowe, a co dziwniejsze ciągle ulega zmianie (wartość dwucyfrowa wzrasta, wartość w nawiasie naprzemiennie wzrasta i maleje), podczas gdy Reallocated_Sector_Ct i Current_Pending_Sector są równe zero.

    Co ciekawsze linuksowy GSmartControl uznaje wartość Reallocated_Event_Count za niebezpiecznie wysoką (zaznacza na czerwono) podczas gdy programy dla Windows (Crystal DiskInfo i SpeedFan) uznają tą wartość za bezpieczną i zupenie inaczej ją pokazują (jako naprzemiennie wzrastającą i malejącą liczbę szesnastkową) - jak poniżej.

    ST9500420AS - dziwne wartości S.M.A.R.T. - jak zinterpretować - czy już awaria?

    Stąd moje pytanie - smartmontools (smartctl) i GSMartContol się mylą czy dysk zaczyna mi wysiadać?

    Pozdrawiam
  • REKLAMA
  • #2 9507359
    helmud7543
    Poziom 43  
    Posty: 12616
    Pomógł: 1216
    Ocena: 1563
    Wygląda na jakąś niestandardową wartość początkową, nie na awarię, ale poczekaj - może niech ktoś jeszcze się wypowie dla pewności.
  • #3 9507404
    artaa
    Poziom 43  
    Posty: 15050
    Pomógł: 1811
    Ocena: 1683
    Hmm, ciekawy HDD.
    Może to C4 (196) jest od tego, że zbiera już uderzenia BF (221):

    G-Sense Error Rate
    Częstość błędów występujących podczas uderzeń. Atrybut ten przechowuje wskazania czujnika przeciążeń i podaje łączną ilość błędów występujących jako rezultat wewnętrznych przeciążeń (upuszczenia dysku, niewłaściwej instalacji, i t.p.).
    Krytyczny: Nie

    Reallocation Event Count
    Ilość operacji remapowania (przenoszenia danych z uszkodzonego sektora do specjalnego zarezerwowanego obszaru - obszaru rezerwowego). Wartość RAW tego atrybutu określa łączną ilość prób transferu danych z relokowanego sektora do obszaru rezerwowego. Liczone są zarówno próby udane jak i nieudane.
    Krytyczny: Tak
  • REKLAMA
  • #4 9508437
    aknot
    Poziom 10  
    Posty: 12
    Tak testowo "wytrząsłem" laptopa w trakcie pracy (oczywiście backup jest) i wartość całkowita wyświetlana przez smartctl się nie zmieniła (wartość w nawiasie zmienia się non stop).
    Zauważyłem, że wartość całkowita zdaje się być w jakiś sposób skorelowana z cyklami włącz/wyłącz HDD - w trakcie pracy zdaje się nie zwiększać, ale po wyłączeniu maszyny na noc znowu wzrosła - teraz smartctl pokazuje tak:

    
    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000f   118   099   034    Pre-fail  Always       -       171452131
      3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
      4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       76
      5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3753177
      9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       68938520068210
     10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       75
    184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
    188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       14
    189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
    190 Airflow_Temperature_Cel 0x0022   068   053   045    Old_age   Always       -       32 (Min/Max 28/32)
    191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       1
    192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       5959
    193 Load_Cycle_Count        0x0032   097   097   000    Old_age   Always       -       7922
    194 Temperature_Celsius     0x0022   032   047   000    Old_age   Always       -       32 (0 17 0 0)
    195 Hardware_ECC_Recovered  0x001a   051   043   000    Old_age   Always       -       171452131
    196 Reallocated_Event_Count 0x000f   100   100   030    Pre-fail  Always       -       43 (47957, 0)
    197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
    254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
    _of_first_error
    # 1  Short offline       Completed without error       00%       102         -
    # 2  Vendor (0x50)       Completed without error       00%         0         -
    
    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
    


    Wobec tego jeszcze raz pytanie - czy to awaria, czy jakiś niestandardowy feature twardziela, czy też parsowanie danych S.M.A.R.T. dla tego modelu twardziela bierze w łeb.

    Zaznaczam, że jest to twardziel dostarczony razem z ThinkPadem T410 - może Lenovo dodaje jakieś autorskie patche do firmware?

    Jeśli ktoś z Forumowiczów posiada jakiegoś w miarę nowego ThinkPada z dyskiem od Seagate, proszę o porównanie swoich wartości S.M.A.R.T. dla atrybutu C4 (Reallocated_Event_Count) z tym co jest u mnie.

    Przyznam, że zgłupiałem - no i nie wiem - reklamować, nie reklamować? Z jednej strony jest trzyletnia gwarancja, z drugiej dysk nie przejawia żadnych dziwnych zachowań, windowsiane monitory S.M.A.R.T. informują, że jest ok lub nie radzą sobie ze sparsowaniem atrybutu, linuksowy smartmon informuje, że jest źle... a ja nie wiem, której wersji się trzymać.
  • Pomocny post
    #5 9509741
    artaa
    Poziom 43  
    Posty: 15050
    Pomógł: 1811
    Ocena: 1683
    Zapytaj Migol21.
  • #6 9509978
    helmud7543
    Poziom 43  
    Posty: 12616
    Pomógł: 1216
    Ocena: 1563
    Ale wartości Value i Treshold pokazują że jest ok (wartości przeliczone). Ja bym dał sobie spokój - wygląda to na niestandardową wartość surową a nie awarię samego urządzenia. Nawet awaria samego SMART (firmware) dałaby o sobie znać podczas normalnego używania.
  • #7 9510108
    aknot
    Poziom 10  
    Posty: 12
    Z ciekawostek: HD Tune Pro (Trial) - aplikacja, do której mam jako takie zaufanie - wyraźnie parsuje dane RAW jako wartość niebezpieczną. Szczegóły na obrazku.

    ST9500420AS - dziwne wartości S.M.A.R.T. - jak zinterpretować - czy już awaria?
  • REKLAMA
  • #8 9510298
    helmud7543
    Poziom 43  
    Posty: 12616
    Pomógł: 1216
    Ocena: 1563
    Bardzo Cię przepraszam - oczywiście pokićkałem - cały czas miałem na myśli Relocated Sector Count patrząc, nie wiedzieć czemu, na wartość Seek Error Rate (myślałem, że Realocated Sector Count ma tak wysoką wartość surową). Coś z mózgiem chyba mam nie tak...
    Do rzeczy.
    Oczywiście, jak mówimy o Realocated Event Count (zliczanie "zdarzeń" a nie sektorów) to nie jest normalne, powinna zmieniać ilość sektorów niestabilnych i realokowanych, nawet biorąc pod uwagę że zliczane są także nieudane próby. Nie wiem jednak o co tu chodzi, wiem jedynie, że te parametry nie powinny się tak zachowywać.
    P. S. Interpretacje (ocena dobry/zły/uwaga) programów traktuj z "przymrużeniem oka" - nie radzą sobie z tym zupełnie (HD Tune większość zdrowych dysków Seagate ocenia na "uwaga", SpeedFan nawet nowe dyski potrafi ocenić kondycyjnie na 70%, Victoria potrafi pokazać zupełne bzdury, najbardziej rzetelny wydaje mi się Crystal Disk Info, Linuxowych narzędzi nie próbowałem). Ja robię tak: patrzę na wartości RAW które są powyżej zera, orientuję się za co odpowiada parametr, po czym patrzę na kolumnę Value (wartość przeliczona, zmienia się zależnie od stanu dysku), Worst (najgorsza zanotowana wartość przeliczona) i Treshold (wartość przeliczona graniczna - jeżeli Value zbliża się do Worst, przeważnie zmniejszając się, to jest źle, jak przekroczy, jest bardzo źle). To tak z grubsza.
  • #9 9510357
    aknot
    Poziom 10  
    Posty: 12
    Spoko, jak to mówią "nie myli się ten, kto nic nie robi" :D

    Bardzo zastanawiające jest to, że wartość odpowiedzialna za liczbę prób realokacji zmienia się (według części monitorów S.M.A.R.T. rośnie), podczas gdy ani liczba zrealokowanych sektorów, ani liczba aktualnie realokowanych, ani liczba nie nadających się do realokacji, ani rozmiar dostepny dla użytkownika nie zmieniają się.
  • #10 9510382
    helmud7543
    Poziom 43  
    Posty: 12616
    Pomógł: 1216
    Ocena: 1563
    Właśnie dlatego, że Realocated Event Count bierze pod uwagę także nieudane próby relokacji. Moje pytanie brzmi: dlaczego się nie udały (skoro nie ma realokowanych) i po co w ogóle próbuje realokować skoro nie problemów z odczytem (nie ma sektorów niestabilnych)? Może to jednak problem z firmware?
  • REKLAMA
  • Pomocny post
    #11 9511056
    migol21
    Specjalista HDD Recovery
    Posty: 10064
    Pomógł: 1252
    Ocena: 413
    Atrybut 196 ( C4 )
    Reallocation Event Count
    Ilość operacji remapowania (przenoszenia danych z uszkodzonego sektora do specjalnego zarezerwowanego obszaru - obszaru rezerwowego). Wartość RAW tego atrybutu określa łączną ilość prób transferu danych z relokowanego sektora do obszaru rezerwowego. Liczone są zarówno próby udane jak i nieudane.
    Krytyczny: Tak (Im niższa wartość tym lepiej)

    Atrybut 188 ( BC )
    Command Timeout
    Ilość przerwanych operacji z powodu nie odpowiadania dysku na komendy. Normalnie ten parametr powinien wynosić zero jeśli jest inaczej może to świadczyć o poważnych problemach z zasilaniem dysku (złączem zasilaczem ect.)
    Krytyczny: Tak (Im niższa wartość tym lepiej)

    Atrybut ID 192 ( C0 )
    Power-off retract count
    Ilość razy kiedy głowice są parkowane. Głowice mogą być parkowane nawet wtedy, gdy dysk nie jest wyłączony z prądu. (or Emergency Retract Cycle count - Fujitsu) Lub kiedy potrzebują zliczać cykle.
    Krytyczny: Nie (Im niższa wartość tym lepiej)

    Atrybut ID 193 ( C1 )
    Load/Unload Cycle Count
    Ilość cykli parkowania/wyparkowania ze strefy parkowania (Landing Zone). Niektóre dyski 2,5 calowe mają opcje parkowania głowicy przy bezczynności dłuższej niż np. 5 minut.
    Krytyczny: Nie (Im niższa wartość tym lepiej)

    Te parametry należy przeanalizować. Te próby przenoszeń widać są spowodowane nie problemami głowicy lub powierzchni.
  • #12 9511229
    aknot
    Poziom 10  
    Posty: 12
    Cytat:

    Atrybut ID 192 ( C0 )
    Power-off retract count
    Ilość razy kiedy głowice są parkowane. Głowice mogą być parkowane nawet wtedy, gdy dysk nie jest wyłączony z prądu. (or Emergency Retract Cycle count - Fujitsu) Lub kiedy potrzebują zliczać cykle.
    Krytyczny: Nie (Im niższa wartość tym lepiej)


    Zastanawiam się, czy na dużą liczbę parkowań głowicy nie ma przypadkiem wpływu dostarczana z ThinkPadami aplikacja współpracująca z wbudowanym w laptopa (nie w HDD) akcelerometrem "wyłączająca" dysk twardy w przypadku wykrycia wstrząsu (z laptopa często korzystam w terenie).

    @migol21 - reasumując, czy przy Twoim stanie wiedzy i doświadczeniu radziłbyś wspomnianym dyskiem zainteresować serwis, podjąć działania na własną rękę (np. wymiana firmware), czy póki co nie przejmować się?

    Ja zazwyczaj (może na wyrost, ale z serwerowymi HDD nie ma żartów) stosuję zasadę: realokowane sektory = obniżona wiarygodność dysku, nieudany pełny test S.M.A.R.T = dysk do serwisu, a w przedstawionym przypadku nie bardzo wiem jak postąpić i jestem zmuszony podeprzeć się opinią praktyka.
  • #14 9511274
    aknot
    Poziom 10  
    Posty: 12
    Nie stwierdziłem nic poza S.M.A.R.T. - podsumowując:
    - zmniejszenie pojemności dostępnej dla użytkownika - brak
    - uszkodzone sektory widoczne dla użytkownika - brak
    - problemy przy starcie dysku - brak
    - podejrzane odgłosy - brak
    - problemy ze stabilnością pracy - brak
    - błędy sum kontrolnych (crc) - brak

    Jeśli chodzi S.M.A.R.T:
    - Reallocated_Event_Count - całkowita wartość rośnie średnio o 2-3 dziennie
    - Power-Off_Retract_Count i Load_Cycle_Count - rosną o kilkadziesiąt wartości dziennie

    Bezpieczeństwo danych:
    - backup wykonywany jest nieregularnie z racji na dość duże ilości danych często zmiennych (obrazy maszyn wirtualnych, pliki bazodanowe etc.)
  • #15 9511282
    migol21
    Specjalista HDD Recovery
    Posty: 10064
    Pomógł: 1252
    Ocena: 413
    Cytat:
    Zastanawiam się, czy na dużą liczbę parkowań głowicy nie ma przypadkiem wpływu dostarczana z ThinkPadami aplikacja współpracująca z wbudowanym w laptopa (nie w HDD) akcelerometrem "wyłączająca" dysk twardy w przypadku wykrycia wstrząsu (z laptopa często korzystam w terenie).
    tu możesz mieć odpowiedź wymiana dysku może nie przynieść efektów ale zmiana sprzętu możliwe.
  • #16 9511297
    aknot
    Poziom 10  
    Posty: 12
    Podejrzewasz jakieś problemy z kontrolerem w laptopie, czy raczej to, że aplikacja "bruździ"?
    Zawsze mogę do testów podłączyć jakiś inny HDD z czystym S.M.A.R.T. i zobaczyć jak się sytuacja rozwinie, ale przyznaję szkoda mi na to czasu, bo to maszynka wykorzystywana do pracy jest.
  • #17 9511308
    migol21
    Specjalista HDD Recovery
    Posty: 10064
    Pomógł: 1252
    Ocena: 413
    Wszystko zależy od możliwości i potrzeb oraz zakresu ochrony i pewności działania.
  • #18 9511314
    aknot
    Poziom 10  
    Posty: 12
    Zależy mi na dużej niezawodności, bo przechowywane dane są mocno problematyczne w backupowaniu (jak pisałem duże zmieniające się pliki - bazy danych i maszyny wirtualne) :)
  • #19 9511360
    migol21
    Specjalista HDD Recovery
    Posty: 10064
    Pomógł: 1252
    Ocena: 413
    To powinieneś mieć RAID-1 w minimalnym wydaniu a nie Laptop przenośny . Są laptopy z dwoma dyskami, które można podłączać w RAID ale z gruntu rzeczy laptop nie należy do urządzeń bezpiecznych niezawodnych i wydajnych razem. Chyba że to te wojskowe.
  • #20 9511377
    aknot
    Poziom 10  
    Posty: 12
    No aż na tak wysokiej niezawodności w laptopie (w stacjonarce bez RAID-a 1 produkcyjnej pracy sobie nie wyobrażam, bo przerywałbym ją kompulsywnym wykonywaniem backupów), żeby się redundancją podpierać mi nie zależy.

    Zależy mi przede wszystkim na tym, by orzec czy wspomniany dysk traktować jako zagrożony awarią/awaryjny i atakować serwis czy jeszcze dać sobie "na luz" i traktować go jako sprawny?

    Tak na marginesie w ThinkPadzie da się - zamiast napędu DVD-RW w niszy multibay można zainstalować kieszonkę do HDD i zestawić RAID-a w poziomie 1, JBOD lub 0 (prawdopodobnie nawet "sprzętowego" - cudzysłowie, bo to będzie zwykły SATA hostraid), co jednak okupujemy skróceniem czasu pracy na baterii.
  • #22 9512704
    aknot
    Poziom 10  
    Posty: 12
    Tak też zamierzam uczynić.

    Co ciekawsze - dorwałem zapisy S.M.A.R.T. prawie takiego samego dysku - ten sam model, inna wersja firmware i oczywiście inny s/n.

    W tymże parametr Reallocated_Event_Count nie w ogóle podany w atrybutach S.M.A.R.T. i do tego różnił się pojemnością dla użytkownika - była mniejsza niż w moim, pomimo że ilość remapowanych i uszkodzonych sektorów była zerowa.

    Możliwe, że inna rewizja tego samego modelu - niestety nie mam dostępu do etykietki, żeby wyczytać więcej informacji o produkcie niż sam dysk podaje.

    Doświadczenie uczy więc, że niby ten sam model, ale dysk dyskowi nie równy ;)
  • #23 9519769
    aknot
    Poziom 10  
    Posty: 12
    Jeszcze jedno pytanie - na koniec wątku.

    Czy takie odczyty S.M.A.R.T. są wystarczającą podstawą do oddania dysku na gwarancję?

Podsumowanie tematu

✨ Użytkownik zaniepokoił się wartością atrybutu S.M.A.R.T. "Reallocated_Event_Count" w dysku twardym Seagate Momentus 7200.4 (model ST9500420AS) po przeprowadzeniu analizy za pomocą narzędzia smartmontools. W odpowiedziach podkreślono, że wartość ta może być niestandardowa i niekoniecznie wskazuje na awarię. Użytkownicy zauważyli, że wartość ta rośnie, ale nie towarzyszą jej inne problemy, takie jak uszkodzone sektory czy błędy przy starcie. Dyskutowano również o wpływie aplikacji współpracującej z akcelerometrem w laptopie na parkowanie głowic dysku. W końcu, użytkownik zastanawiał się, czy warto oddać dysk na gwarancję, biorąc pod uwagę odczyty S.M.A.R.T.
Wygenerowane przez model językowy.
REKLAMA