Elektroda.pl
Elektroda.pl
X

Search our partners

Find the latest content on electronic components. Datasheets.com
Please add exception to AdBlock for elektroda.pl.
If you watch the ads, you support portal and users.

Szkolenie 20-miliardowego modelu AI na pojedynczym procesorze

ghost666 04 Aug 2022 00:22 555 0
  • Szkolenie 20-miliardowego modelu AI na pojedynczym procesorze
    Cerebras GPW–2, procesor w systemie
    CS–2 jest wielkości dużego talerza.
    Firma Cerebras zaprezentowała możliwości swojej nowej platformy sprzętowej do akceleracji systemów AI. Jest to druga generacja silnika AI, zintegrowanego w skali substratu półprzewodnikowego. To nowatorskie podejście, które charakteryzuje się wykorzystaniem pojedynczego chipa. Model AI z 20 miliardami parametrów, przeszkolony na pojedynczym układzie Cerebras, to rekordowej wielkości projekt sztucznej inteligencji, jaki kiedykolwiek został wytrenowany na jednym urządzeniu. Wykorzystane — GPT-NeoX 20B — to sieć przetwarzania języka naturalnego. Procesowanie takich systemów na jednym chipie ma istotne znaczenie dla rozwoju AI. Przyjrzyjmy się, dlaczego jest to tak ważne.

    Dlaczego musimy trenować tak duże modele?

    Nowy typ sieci neuronowej, tzw. transformatorowy, przejmuje kontrolę w branży. Obecnie 'transformatory' są używane głównie do przetwarzania języka naturalnego (NLP), gdzie ich mechanizm działania może pomóc w dostrzeżeniu związku między słowami w zdaniu, ale rozprzestrzeniają się one na inne aplikacje AI, w tym widzenie maszynowe. Im większy transformator, tym dokładniejszy. Modele językowe mają teraz rutynowo miliardy parametrów i szybko rosną, bez żadnych oznak spowolnienia.

    Jednym z kluczowych obszarów, w których użytkowane są ogromne transformatory to badania medyczne w zastosowaniach takich jak epigenomika, gdzie są one wykorzystywane do modelowania: „języka” genów — sekwencji DNA.

    Dlaczego szkolenie algorytmu na jednym układzie ma znaczenie?

    Ogromne modele są dziś w większości trenowane przy użyciu systemów wieloprocesorowych. Zwykle złożonych z układów GPU. Cerebras twierdzi, że jego klienci uznali, że partycjonowanie ogromnych modeli na setki procesorów jest czasochłonną kwestią, która wygląda różnie dla każdej jednostki i konkretnego systemu wieloprocesorowego. A która jest wyznaczana w oparciu o właściwości modelu i charakterystykę każdego procesora (tj. rodzaj procesora i ilość posiadanej pamięci) oraz charakterystykę sieci I/O. Ta praca nie jest przenoszona do innych modeli lub systemów, co oznacza, że musi być wykonywana niezależnie... mnoży to, więc ilość działań, czy potrzebnie?

    Zazwyczaj w przypadku systemów wieloprocesorowych, w grę wchodzą trzy rodzaje równoległości:

    * Jeśli model mieści się na jednym procesorze, można go zduplikować na inne i każdy z nich trenować z różnorakimi podzbiorami zasobów — nazywa się to równoległością danych, która jest stosunkowo prosta do realizacji.
    * Jeśli model nie mieści się na jednym procesorze, można podzielić go na takie, na których działa co najmniej jedna warstwa — nazywa się to równoległością modelu potokowego. Jednak warstwy muszą pracować sekwencyjnie, więc użytkownik powinien ręcznie oszacować, ile pamięci i operacji wejścia i wyjścia będzie potrzebnych dla każdej z nich, aby upewnić się, że nie ma wąskich gardeł. To bardziej skomplikowane niż równoległość danych.
    * Jeśli pojedyncza warstwa modelu jest tak duża, że ​​nie mieści się na jednym procesorze, to jest jeszcze bardziej wymagające. Równoległość modelu tensorowego musi być używana do dzielenia warstw między procesorami, dodając kolejny wymiar złożoności, który również dodatkowo obciąża pamięć i przepustowość wejść i wyjść.



    Ogromne modele, takie jak GPT-NeoX 20B, o jakim mówi Cerebras, wymagają do treningu wszystkich trzech typów równoległości w systemie.

    Szkolenie 20-miliardowego modelu AI na pojedynczym procesorze
    Podział typów równoległości używanych obecnie do trenowania ogromnych modeli.


    CS-2 firmy Cerebras eliminuje potrzebę zrównoleglenia modelu, częściowo ze względu na sam rozmiar procesora. W rzeczywistości jest on ogromny z 850 000 rdzeni na pojedynczym chipie, wielkości całego substratu krzemowego, wystarczająco duży, aby zmieścić nawet największe warstwy sieciowe. A w jakimś względzie dlatego, że w platformie Cerebras zdezagregowano pamięć od części obliczeniowej. Można więc dodać jej więcej, aby obsłużyć szerszy zakres parametrów bez konieczności większej ilości obliczeń, zachowując jednaką architekturę. Bez potrzeby korzystania z równoległości nie trzeba poświęcać czasu i zasobów na ręczne partycjonowanie modeli w celu uruchomienia ich w systemach wieloprocesorowych. Ponadto, bez specjalnej części procesu, modele stają się przenośne. Zmiana między modelami GPT z kilkoma parametrami polega na aktualizacji zaledwie czterech zmiennych w jednym pliku. Podobnie przy GPT-J i GPT-Neo wymaga to tylko kilku naciśnięć klawiszy. Jak wskazuje Cerebras, może to zaoszczędzić miesiące projektowania.

    Jakie są konsekwencje rozwiązania Cerebras?

    Modele NLP rozrosły się obecnie tak bardzo, że w praktyce tylko garstka podmiotów dysponuje dzisiaj odpowiednimi zasobami — zarówno pod względem kosztów obliczeń, jak i czasu inżynieryjnego — do ich szkolenia. Cerebras ma nadzieję, że udostępniając swój system CS-2 w chmurze, a także pomagając klientom w skróceniu czasu i potrzebnych zasobów inżynieryjnych, może otworzyć ogromne możliwości trenowania tego rodzaju modeli dla wielu innych firm, nawet tych bez dużych zespołów. Oferuje to przyspieszenie badań naukowych i medycznych oraz tych nad samym NLP. Pojedynczy CS-2 może trenować modele z setkami miliardów, a nawet bilionami parametrów, więc istnieje wiele możliwości szkolenia dla przyszłych ogromnych sieci, jak również dla obecnie stosowanych.

    Czy system Cerebras ma realne zastosowanie?

    Firma biofarmaceutyczna AbbVie używa CS-2 do szkolenia transformatora NLP, który zasila usługi tłumaczeniowe firmy, aby umożliwić przeszukiwanie ogromnych bibliotek literatury biomedycznej w 180 językach. „Częstym wyzwaniem, z jakim mamy do czynienia przy programowaniu i szkoleniu modeli BERTLARGE, jest zapewnienie wystarczających zasobów klastra GPU przez zadowalające okresy” — pisze w oświadczeniu Brian Martin, szef działu AI w firmie AbbVie. „System CS-2 zagwarantuje ulepszenia czasowe, które łagodzą wiele aspektów tego mankamentu, zapewniając jednocześnie prostszy model programowania, który przyspiesza dostarczanie nowych algorytmów, umożliwiając naszym zespołom szybszą iterację i testowanie większej liczby pomysłów”.

    GlaxoSmithKline wykorzystało system Cerebras pierwszej generacji — CS-1 — do swoich badań epigenomicznych. Całość umożliwiła trenowanie sieci przy użyciu zestawu danych, który w innym przypadku byłby zbyt duży. „GSK generuje niezwykle pokaźne zasoby dzięki swoim badaniom genomicznym i genetycznym, a pakiety te wymagają nowego sprzętu do prowadzenia uczenia maszynowego” — powiedział w oświadczeniu Kim Branson, starszy wiceprezes ds. sztucznej inteligencji i uczenia maszynowego w GSK. „Cerebras CS-2 jest kluczowym komponentem, który pozwala GSK trenować modele językowe przy użyciu biologicznych zestawów danych w skali i rozmiarze wcześniej nieosiągalnym. Te fundamentalne jednostki stanowią podstawę wielu naszych systemów sztucznej inteligencji i odgrywają kluczową rolę w odkrywaniu nowych leków”.

    Inni użytkownicy Cerebras to TotalEnergies, używający CS-2 do przyspieszenia symulacji baterii, biopaliw, przepływu wiatru, wiercenia i magazynowania CO2; Narodowe Laboratorium Technologii Energii, które przyspiesza opartą na fizyce obliczeniową dynamikę płynów za pomocą CS-2; Argonne National Laboratory stosujący CS-1 do badań nad Covid-19 i leków przeciwnowotworowych. Przykładów jest jednak o wiele więcej.

    Źródło: https://www.eetimes.com/training-a-20-billion-parameter-ai-model-on-a-single-processor/

    Cool? Ranking DIY
    About Author
    ghost666
    Translator, editor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 wrote 11189 posts with rating 9469, helped 157 times. Live in city Warszawa. Been with us since 2003 year.