Elektroda.pl
Elektroda.pl
X
Elektroda.pl
Proszę, dodaj wyjątek dla www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

[Rozwiązano] OCZ SOLID 3, przywiesza system na kilkanaście sekund

Jarosx9 23 Wrz 2018 14:34 252 5
  • #1 23 Wrz 2018 14:34
    Jarosx9
    Poziom 35  

    Mam problem z dyskiem OCZ Solid 3 (Firmware 2.13).
    Jest to dysk systemowy, jest na nim linux z kernel'ami 4.17/18/19 (objawy te same). Raz na jakiś czas - dajmy na to 1-2 razy dziennie dysk wspomniany zamraża mi system na kilkanaście sekund tzn. któryś z rdzeni na 100%, wszystko stoi i tylko myszką można ruszać (ewentualnie kilka liter w konsoli wpisać).
    Dzieje się tak kilka miesięcy już, ale wcześniej się to zdarzało raz na tydzień a teraz zjawisko nabiera na sile.

    Wynik dmesg pokazuje:

    Code:

    [ 3092.813076] ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x40000 action 0x0
    [ 3092.813077] ata5.00: irq_stat 0x40000001
    [ 3092.813079] ata5: SError: { CommWake }
    [ 3092.813080] ata5.00: failed command: FLUSH CACHE
    [ 3092.813085] ata5.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 5
                            res 51/04:00:00:00:00/00:00:00:00:00/a0 Emask 0x1 (device error)                                     
    [ 3092.813086] ata5.00: status: { DRDY ERR }
    [ 3092.813087] ata5.00: error: { ABRT }
    [ 3092.813489] ata5.00: both IDENTIFYs aborted, assuming NODEV
    [ 3092.813491] ata5.00: revalidation failed (errno=-2)
    [ 3092.813493] ata5: hard resetting link
    [ 3093.126120] ata5: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
    [ 3093.137312] ACPI BIOS Error (bug): Could not resolve [\_SB.PCI0.SAT0.SPT4._GTF.DSSP], AE_NOT_FOUND (20180810/psargs-330)
    [ 3093.137327] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.SPT4._GTF, AE_NOT_FOUND (20180810/psparse-516)
    [ 3093.147224] ACPI BIOS Error (bug): Could not resolve [\_SB.PCI0.SAT0.SPT4._GTF.DSSP], AE_NOT_FOUND (20180810/psargs-330)
    [ 3093.147235] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.SPT4._GTF, AE_NOT_FOUND (20180810/psparse-516)
    [ 3093.147977] ata5.00: configured for UDMA/133
    [ 3093.148410] ata5.00: device reported invalid CHS sector 0
    [ 3093.148423] ata5: EH complete


    i następny jakiś czas później

    Code:

    [ 4856.670574] ata5.00: exception Emask 0x0 SAct 0x3f000000 SErr 0x50000 action 0x6 frozen
    [ 4856.670580] ata5: SError: { PHYRdyChg CommWake }
    [ 4856.670585] ata5.00: failed command: WRITE FPDMA QUEUED
    [ 4856.670597] ata5.00: cmd 61/40:c0:88:af:4c/00:00:00:00:00/40 tag 24 ncq dma 32768 out
                            res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)                                         
    [ 4856.670600] ata5.00: status: { DRDY }
    [ 4856.670603] ata5.00: failed command: WRITE FPDMA QUEUED
    [ 4856.670613] ata5.00: cmd 61/40:c8:f0:3d:92/00:00:00:00:00/40 tag 25 ncq dma 32768 out
                            res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)
    [ 4856.670615] ata5.00: status: { DRDY }
    [ 4856.670618] ata5.00: failed command: WRITE FPDMA QUEUED
    [ 4856.670628] ata5.00: cmd 61/80:d0:f0:3e:92/00:00:00:00:00/40 tag 26 ncq dma 65536 out
                            res 40/00:01:a0:7f:d5/00:00:1d:00:00/e0 Emask 0x4 (timeout)
    [ 4856.670631] ata5.00: status: { DRDY }
    [ 4856.670634] ata5.00: failed command: WRITE FPDMA QUEUED
    [ 4856.670644] ata5.00: cmd 61/40:d8:b0:3f:92/00:00:00:00:00/40 tag 27 ncq dma 32768 out
                            res 40/00:ff:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
    [ 4856.670646] ata5.00: status: { DRDY }
    [ 4856.670649] ata5.00: failed command: WRITE FPDMA QUEUED
    [ 4856.670659] ata5.00: cmd 61/40:e0:70:40:92/00:00:00:00:00/40 tag 28 ncq dma 32768 out
                            res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)
    [ 4856.670661] ata5.00: status: { DRDY }
    [ 4856.670664] ata5.00: failed command: WRITE FPDMA QUEUED
    [ 4856.670674] ata5.00: cmd 61/70:e8:a8:1a:46/00:00:01:00:00/40 tag 29 ncq dma 57344 out
                            res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)
    [ 4856.670676] ata5.00: status: { DRDY }
    [ 4856.670681] ata5: hard resetting link
    [ 4856.983603] ata5: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
    [ 4856.994561] ACPI BIOS Error (bug): Could not resolve [\_SB.PCI0.SAT0.SPT4._GTF.DSSP], AE_NOT_FOUND (20180810/psargs-330)
    [ 4856.994584] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.SPT4._GTF, AE_NOT_FOUND (20180810/psparse-516)
    [ 4857.004527] ACPI BIOS Error (bug): Could not resolve [\_SB.PCI0.SAT0.SPT4._GTF.DSSP], AE_NOT_FOUND (20180810/psargs-330)
    [ 4857.004549] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.SPT4._GTF, AE_NOT_FOUND (20180810/psparse-516)
    [ 4857.005183] ata5.00: configured for UDMA/133
    [ 4857.005638] ata5: EH complete


    Smart przechodzi, błędów odczytu normalnie nie ma, robię kopię tego dysku codziennie i odczytuje poprawnie bez opóźnień.

    SMART:
    Code:

    smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-1-MANJARO] (local build)
    Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF INFORMATION SECTION ===
    Model Family:     SandForce Driven SSDs
    Device Model:     OCZ-SOLID3
    Serial Number:    OCZ-VAJNKIC565RTCP5B
    LU WWN Device Id: 5 e83a97 e556c1166
    Firmware Version: 2.13
    User Capacity:    60 022 480 896 bytes [60,0 GB]
    Sector Size:      512 bytes logical/physical
    Rotation Rate:    Solid State Device
    Device is:        In smartctl database [for details use: -P show]
    ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
    SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
    Local Time is:    Sun Sep 23 14:32:49 2018 CEST
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled

    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED

    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                ( 2097) seconds.
    Offline data collection
    capabilities:                    (0x7f) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Abort Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   1) minutes.
    Extended self-test routine
    recommended polling time:        (  48) minutes.
    Conveyance self-test routine
    recommended polling time:        (   2) minutes.
    SCT capabilities:              (0x0021) SCT Status supported.
                                            SCT Data Table supported.

    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000f   084   084   050    Pre-fail  Always       -       0/121726496
      5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
      9 Power_On_Hours_and_Msec 0x0032   079   079   000    Old_age   Always       -       18729h+33m+16.160s
     12 Power_Cycle_Count       0x0032   096   096   000    Old_age   Always       -       4860
    171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
    172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
    174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       624
    177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       4
    181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
    182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
    194 Temperature_Celsius     0x0022   128   129   000    Old_age   Always       -       128 (0 127 0 129 0)
    195 ECC_Uncorr_Error_Count  0x001c   120   120   000    Old_age   Offline      -       0/121726496
    196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
    201 Unc_Soft_Read_Err_Rate  0x001c   120   120   000    Old_age   Offline      -       0/121726496
    204 Soft_ECC_Correct_Rate   0x001c   120   120   000    Old_age   Offline      -       0/121726496
    230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
    231 SSD_Life_Left           0x0013   099   099   010    Pre-fail  Always       -       1
    233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       4094
    234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       3675
    241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       3675
    242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       10238

    SMART Error Log not supported

    SMART Self-test Log not supported

    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.


    Co zrobić, jak żyć, żegnać się już tym dyskiem?

    0 5
  • #3 24 Wrz 2018 01:00
    Jarosx9
    Poziom 35  

    Zrobiłem sam update firmware do 2.25. Testuję.

    0
  • #5 24 Wrz 2018 14:24
    Jarosx9
    Poziom 35  

    Fsck robiłem, brak błędów.
    W międzyczasie uaktualnienia firmware dodałem jeszcze parametr libata.force=noncq do parametrów jądra bo znalazłem gdzieś w sieci że czasami NCQ potrafi namieszać przy SSD (podobne freezy parę osób opisywało).

    Wydaje się że problem rozwiązany, bo po prawie dobie od powyższych czynności, problem już nie wystąpił czyli najprawdopodobniej pomogło firmware lub wyłączenie NCQ. Zostawię to na razie jak jest.
    Wątku jeszcze na razie nie zamykam przez parę dni testów.
    Dzięki za pomoc i zainteresowanie pidar.

    0
  • #6 29 Wrz 2018 14:37
    Jarosx9
    Poziom 35  

    Przetestowano, zawieszenia ustały, problem definitywnie zażegnany, rozwiązanie powyżej.

    0