Elektroda.pl
Elektroda.pl
X
Elektroda.pl
Proszę, dodaj wyjątek dla www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

[3ware 9650se-16ml]RAID5 - Awaria dysku podczas rozbudowy.

buliyo 20 Paź 2016 13:23 615 0
  • [3ware 9650se-16ml]RAID5 - Awaria dysku podczas rozbudowy.

    #1
    Poziom 10  

    Witam ekspertów. Przydarzyła mi się nieciekawa sytuacja - której nie przewidziałem do końca. Chciałbym dlatego prosić Was o pomoc.
    Generalnie swój poziom wiedzy w tej dziedzinie określam na 3+ i postaram się nie zadawać głupich pytań.
    Sprzęt:
    Obudowa Supermicro 16 zatok SAS/SATA
    Płyta głowna Intel Server 2000 (nie pamiętam już tego ale nie ma znaczenia większego)
    Kontroler: 3Ware 9550-16 + Nowe BBU
    Dyski: Hitachi 2TB 7200k
    RAID5
    Windows XP 64x - Partycja GPO 14,55TB
    Kieszeń od 0-8: Unit0 14,55TB GPO NTFS
    Kieszeń 9: Pusta
    Kieszeń 10-14: Nowe dyski do rozbudowy Unit0
    Kieszeń 15: Hot-Spare


    Rozwój wydarzeń:
    Macierz pracowała w Raidzie 5 na 9 Dyskach - około 15TB przestrzeni - bez Hot Spara. Postanowiłem dołożyć kolejne 6 dysków, 5 do istniejącego już Unit0 oraz jednego Hot-Spara tak aby zwiększyć bezpieczeństwo danych. Teraz rozwój wydarzeń.
    1. Montaż dodatkowych dysków
    2. Rozpoczęcie rozbudowy Unit0
    Wystąpienie 2 błędów dysków:
    Port 11 - Time Out
    Port 15 - Device Error

    Co ważne, nie miało to na tym etapie wpływu na Raid5 - został on zdegradowany w związku z tym, że port 11 był jego członkiem ale był dalej operatywny. Port 15 to hot-spare wiec nie mógł po prostu się na niego przełączyć. Dziwna sytuacja z tym, że dyski z zerową ilością godzin pracy wysypały się 2 na raz. Mam pewne podejrzenia, czy nie jest problemem Zasilanie na ostatniej grupie lub koncektor, z tego co pamiętam ten kontroler grupuje dyski po przez 4 złącza 4x4. Ale nie ma to tutaj znaczenia na tym etapie..
    3. Wymieniłem dysk w porcie 11 i rozpocząłem ponowną odbudowę macierzy. Miała ona na ten moment taki kształt:
    [3ware 9650se-16ml]RAID5 - Awaria dysku podczas rozbudowy.
    4. W nocy podczas tej rozbudowy pojawił się WARN ECC na porcie 4. Niestety w związku z tym nie mógł zakończyć odbudowy (zatrzymała się na 99%). Jak wiadomo taki warn to jeszcze nie koniec świata - dałem mu parametr z CLI ignoreECC i chciałem wymusić ponowną odbudowę na porcie 11. Tam jednak cały czas wyświetlał się status Rebuild 99% - próbowałem z CLI dawać pause, resume itd. bez skutku.
    Tak to wyglądało:
    [3ware 9650se-16ml]RAID5 - Awaria dysku podczas rozbudowy.
    Postanowiłem przerwać proces odbudowy poprzez wysunięcie dysku 11 z portu - tak też zrobiłem w tym momencie powinienem pozostać z zdegradowaną macierzą, która ma błąd ECC na 4 porcie.
    5. Stała się, rzecz dziwna po przerwał odbudowywanie macierzy ale przy tym przeszła ona w stan nieoperatywny. Co ciekawe, w sposób zupełnie dla mnie nie zrozumiały - przypominam, że wysunąłem zdegradowany dysk i wsunąłem ponownie tymczasem macierz zwróciła NOT Present dla dysków 10 12 13 14 (czyli wszystkich dla, których zdążył się już odbudować) poniżej screen:
    [3ware 9650se-16ml]RAID5 - Awaria dysku podczas rozbudowy.
    Motywujące dla mnie jest to, że na ostatnim screenie przy zdegradowanych, nowych dyskach jest brak portu - sugerujący, że macierz być może zgubiła z nimi połączenie.
    6. Po tym zdarzeniu wyłączyłem macierz.
    7. Wymontowałem wszystkie dyski i właśnie jestem na etapie tworzenia kopii sektorowych przy użyciu DMDE.
    8. Dysk numer 4 dał się także zgrać bez większych problemów - znalazł się na nim 1 (słownie jeden sektor), który był uszkodzony.
    9. Kopie wykonuje równolegle na 5 stacjach - właśnie jestem przy tworzeniu mirroru 10 dysku. Przed wykonaniem kopii wszystkich 14 biorących udział w tym evencie nie chcę ruszać nic w macierzy. Dodam, że dysk 10 pokazał nam się jako zdegradowany i wysunięty z portu, a tymczasem kopiuje się sektorowo bez żadnych problemów tak więc zaginięcie dysku raczej leżało po stronie kontrolera.

    Teraz moje założenie scenariusza pozytywnego:
    Włączam macierz ponownie, i wracam do stanu operatywnego czyli dyski z portu 10,12,13,14 ponownie się uruchamiają i wracają do macierzy. Ja aby nie ryzykować utraty całkowitej danych zapuszczam kopię na zewnątrz i wtedy: Dyski na których robiłem obraz wrzucam do macierzy, Tworzę RAID6 + 2 Spary. Następnie zgrywam ponownie dane do macierzy. Taki jest scenariusz pozytywny.

    Teraz scenariusz negatywny: Włączam macierz i mam stan, który był na koniec czyli
    Port 4 - WARN ECC dysk nie jest zdegradowany ale ma jeden badsector
    port 10 - Degrade i brak widoczności w macierzy
    port 11 - Degrade i widoczność w macierzey
    port 12 - Degrade i brak widoczności w macierzy
    port 13 - Degrade i brak widoczności w macierzy
    port 14 - Degrade i brak widoczności w macierzy

    +mam w tym momencie kopie sektorową wszystkich dysków porty 0-14
    +mam dostępny dodatkowy kontroler bliźniaczy

    Pytania, które się mi nasuwają i o które chciałbym Was zapytać.
    1. Dyski 10-14 zostały przebudowane w macierzy ale nie został rozszerzony jeszcze wolumen z systemem plików. Co w takim wypadku się na nich zadziało? Czy podczas przebudowy macierz rozsiała już na nie dane? Na logikę tak powinno być bo w innym wypadku nie uzyskalibyśmy wzrostu prędkości odczytu, który w raidzie 5= xN - n ilość dysków.
    2. Czy w takim wypadku Waszym zdaniem da się zrekonstruować Raid na podstawie dysków 0-8? Przypominam, że te 9 dysków posiada faktyczne dane z macierzy przed rozbudową. Dodatkowo, żaden z nich nie jest zdegradowany poza błędem ECC na dysku 4.
    3. Co by się stało gdybym teraz dyski, na które zrobiłem mirror wsadził do starej macierzy? Odpali się w ogóle czy uzna, że te dyski nie należą do raida, który jest zbudowany w macierzy. Gdzieś czytałem informacje o tym, że 3Ware zapisuje w tablicy numery seryjne dysków? Czy w takim wypadku powinny się one znajdywać w tablicy HEX, każego z dysków
    4. Czy z wykorzystaniem kontrolera zapasowego jest jakiś sposób aby wymusić odpalenie sklonowanych dysków bez procesu inicjalizacji itd? Chciałbym jakoś oszukać 3ware tylko nie mam pomysłu jak to zrobić.
    5. Rekonstrukcję raidu można zrobić też z tego co widziałem w UFS Explorerze ale jest to dość karkołomna procedura, ze względu na to, że musiałbym mieć komputer z możliwością podłączenia 14 kanałów SATA lub ze storagem pozwalającym na zgranie 14 plików img po 1,84TB na obraz dysku.

    Macierz backupowała się od jakiegoś czasu do chmury, ale jak wiadomo złośliwość rzeczy martwych - wysypała się przy około 75% danych istotnych także jest o co powalczyć..

    Najbardziej interesuje mnie kwestia w jaki sposób patrzeć na dyski od 10-14, czyli 4 odbudowane teoretycznie i jeden zdegradowany. Spotkałem się z taką opinią, że do momentu braku rozszerzenia wolumenu plików te dyski z racji tego, że były nowe w dalszym ciągu będą posiadały w swojej tablicy same zera.

    Proszę o ewentualne wskazówki, uwagi, porady.

    Z mojej strony dodam - nie ruszajcie raida bez kompletnego lustra macierzy z danymi.
    Jeśli już rozbudowujecie raid 5 to dodawajcie po jednym dysku - proces mniej wygodny ale ryzyko mniejsze.
    Nie używajcie ogólnie raid'u 5 - straty przy 6 nie są takie duże, a teraz byłbym spokojny.. Niestety budżet był napięty i wyszło jak wyszło

    0 0