Elektroda.pl
Elektroda.pl
X
Proszę, dodaj wyjątek dla www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

Start-up Cerebras prezentuje nowe, rekordowe układy dla AI

ghost666 31 Sie 2019 19:59 414 2
  • Start-up Cerebras prezentuje nowe, rekordowe układy dla AI
    Start-up Cerebras zaprezentował na konferencji Hot Chips największe obecnie na świecie urządzenie półprzewodnikowe. Jest to macierz procesorów wykonanych w technologii 16 nm, która zajmuję powierzchnię całego krzenmowego wafla. Ogromny układ ma powierzchnię 46225 mm², zużywa 15 kW i mieści w sobie 400 tysięcy rdzeni. Układy te działają już w kilku systemach u co najmniej jednego klienta spółki.

    Układ Spring Crest Intela – procesor taktowany zegarem 1,1 GHz, który zawierać ma 64 układy serdes 28G, przesyłające dane w 16 liniach po 112 Gb/s, każda. Ma to pozwolić na połączenie razem do 1024 chipów. Zastrzeżony interkonekt Intela to bezpośrednie łącze bez protokołu, które nie musi przechodzić przez zewnętrzną pamięć HBM2, umożliwiając względnie szybki sposób na rozłożenie dużych sieci neuronowych na wiele procesorów. Umieszczając wszystkie rdzenie, pamięci i interkonekty na jednym waflu, jak robi to Cerebras będzie jeszcze szybsze i zmieści się w jednym układzie scalonym.

    Start-up zebrał ponad 200 milionów dolarów od doświadczonych inwestorów, aby wprowdzić na rynek jako pierwszy układ w integracji na skalę całego podłoża półprzewodnikowego,wykorzystując pionierskie nowe techniki. Zakłada się, że rynek uczenia systemów AI rozszerzy się z niebawem siedmiu istniejących hiperskalowych centrów danych do setek firm we wszystkich sektorach, od farmacji po fintech, które będą chciały zachować swoje zbiory danych dla siebie.

    Jak to działa?

    Urządzenie Cerebras wykorzystuje 84 moduły w układzie 7x12. Każdy zawiera około 4800 rdzeni dostosowanych do algebry liniowej AI z 48 KB SRAM na każdy rdzeń. To jedyna pamięć dla tych układów. Hierarchia jednopoziomowa w układzie przyspiesza przetwarzanie danych, dzięki niewielkiej potrzebie aplikacji szkoleniowej do udostępniania pamięci między rdzeniami. Łącznie pamięci SRAM w module jest 18 Gb- ilość ta jest ogromna w porównaniu do pojedynczego procesora graficznego Nvidia, ale niewielka w porównaniu do systemów, z którymi Cerebras zamierza konkurować.

    Firma nie chce na razie komentować częstotliwości taktowania urządzenia, która prawdopodobnie jest niska, aby pomóc w sprostaniu jego zapotrzebowaniem na dostarczanie mocy i odprowadzanie ciepła. Doświadczeni inżynierowie ze start-upu „wcześniej projektowali układy taktowane zegarem 2..3 GHz, ale to nie jest obecnie nasz cel – zysk z podkręcania zegara jest mniejszy niż z dodawania kolejnych rdzeni” powiedział Andrew Feldman, dyrektor naczelny i założyciel firmy Cerebras.

    Feldman nie podaje obecnie danych na temat kosztów układu, ani danych dotyczących detali systemu, w jakim układy te mają pracować. Dyrektor nie podał także dokładniejszych planów rozwoju ekosystemu; powiedział jednak, że prezentowany system zapewni wydajność na poziomie tysiąca procesorów graficznych Nvidia, których montaż w serwerowni może potrwać nawet miesiące, przy czym opisywany układ wymaga jedynie 2-3% przestrzeni i mocy wykorzystywanej przez układy GPU.

    Firma zamierza zaprezentować szerzej swój system, jego wydajność i testy porównawcze na targach Supercomputer w listopadzie. Uczestnicy docenią jego historyczne znaczenie, biorąc pod uwagę, że ostatnie podobne starania na 3,5-calowym podłożu miały miejsce w roku 1980, wysiłkami firmy Trilogy, superkomputerowego start-upu Gene Amdahla.

    Kompilator Cerebras pobierze model TensorFlow lub Pytorch, skonwertuje je na język maszynowy i użyje bibliotek mikrokodu do mapowania poszczególnych warstw sieci neuronowej na regiony gigantycznego układu. Kompilator robi to częściowo, programując instrukcje na rdzeniach, a częściowo konfigurując sieć połączeń pomiędzy rdzeniami.

    „Utrzymamy całą sieć w jednym chipie. Wszyscy dzielą sieć i marnują czas na przesyłanie danych w tę i z powrotem” na wolniejszych, zewnętrznych połączeniach, często poprzez pamięć, powiedział Feldman.

    Prawie dwie trzecie ze 174 inżynierów zatrudnionych w Cerebras to twórcy oprogramowania, co świadczy o złożoności kodu AI i kodu kompilatora. Feldman skomentował, że przed uruchomieniem pierwszych systemów komercyjnych czeka ich „mnóstwo pytań i odpowiedzi”.

    Start-up Cerebras prezentuje nowe, rekordowe układy dla AI
    |Jeśli uda im się sprawić, że ten chip zadziała, będzie to przełomowe” powiedział Karl Freund, analityk AI i systemów high-end z Moor Insights & Strategy. „Problemy, które rozwiązują, są trudne, ale nie są z księżyca, więc zakładam, że uda im się to zrobić w przyszłym roku” dodał.

    Cerebras stoi w obliczu ok 90% monopolu Nvidii na rynku akceleratorów AI. Produkty w technologii 16 nm pojawią się mniej więcej w tym samym czasie, kiedy Nvidia rozpoczyna wysyłkę swojego procesora graficznego Ampere produkowanego z wykorzystaniem technologii 7 nm. Jednocześnie Intel prezentuje 28-rdzeniowy układ Spring Crest, a start-up Habana ośmiordzeniowy procesor dedykowany do uczenia sieci neuronowych. Ponadto Huawei niebawem chce prezentować swój podobny układ, a firma Graphcore zgromadziła właśnie 300 milionów dolarów na finansowanie i wsparcie Della w stworzeniu 1200-rdzeniowego układu dla systemów AI.

    „Ludzie próbują różnych rzeczy - jak duże są rdzenie, ile mają pamięci i przepustowości oraz jak są połączone. Zobaczymy, jaka jest właściwa kombinacja” powiedziała Linley Gwennap, analityk z Linley Group, zauważając, że niewielu producentów nowych układów pokazuje póki co testy wydajności swoich układów. Gwennap dodał, że oprogramowanie AI zawiera wiele niuansów, takich jak to jaką liczbę operacji TensorFlow obsługują układy scalone i czy może on działać dobrze w szerokim zakresie typów sieci neuronowych.

    Pionierska integracja w skali całego wafla półprzewodnikowego

    Ze swojej strony Cerebras przeszedł przez wyzwania w zakresie wydajności, mocy i termiki, aby dostarczyć urządzenie na skalę całego podłoża. Firma obecnie składa wniosek o około 30 patentów i jak dotąd wydano jej około pół tuzina.

    Ogromnym problemem, przy produkcji tego rodzaju wielkich urządzeń elektronicznych, mogą być defekty struktury w krzemie. Na przykład typowy wafel 300 mm od TSMC może zawierać ponad sto wad na swojej powierzchni, powiedział Feldman. Cerebras rozwiązał ten problem dodając do układów zbędne linki, tak aby móc ominąć wadliwe rdzenie i przeznaczył „nieco ponad 1% [rdzeni] jako elementy zamienne”.

    Z ponad 100 wafli, które do tej pory wyprodukowano, wszystkie działają na akceptowalnym poziomie. Aby je zasilać i chłodzić, Cerebras zaprojektował własną płytę główną i system chłodzenia. Moduł ten dostarcza energię i wodę bezpośrednio do każdego modułu. Każdy rack z układami zawiera system z zamkniętą pętlą do chłodzenia wody. Cerebras współpracował także z partnerami przy projektowaniu maszyny do przenoszenia i układaniu płytki krzemowej na płycie głównej. „Mamy w firmie naukowców zajmujących się fluidyką, materiałoznawstwem i inżynierią produkcji” chwali się Feldman.

    Start-up współpracował z TSMC, aby opracować sposób umieszczenia interkonektów w miejscach oddzielających rdzenie. Zazwyczaj są to obszary zarezerwowane dla nacięć, które oddzielać mają poszczególne rdzenie od wafla – tutaj nie ma potrzeby dzielenia podłoża na poszczególne układy, jako że całe podłoże jest jednym układem scalonym.

    Plan start-upu, aby zaprezentować swój system podczas na targach Supercomputer, sugeruje, że widzi on rynek dla swoich urządzeń daleko poza siedmioma hiperskalowymi centrami danych, jakie istnieją obecnie. Jeśli chodzi o uczenie algorytmów AI, „początkowo sądziliśmy, że na świecie będzie 200 klientów, ale zmieniliśmy te szacunki do 1000”, powiedział Feldman. „Gdziekolwiek się znajdujemy, znajdujemy firmy z dużymi zestawami danych, których nie chcą przechowywać ich w Google Cloud, gdzie pojedynczy trening może kosztować 150 000 dolarów” dodał. Producenci samochodów, koncerny farmaceutyczne, poszukiwacze ropy i gazu oraz firmy finansowe same szkolą swoje algorytmy. „Hiperskalowe centra danych są ważnym segmentem, ale nie stanowią nawet połowy rynku”.

    Fred Weber, inwestor w Cerebras i były kierownik ds. Inżynierii w AMD, odpowiedzialny za procesory Opteron, dostrzega jeszcze szerszy potencjał integracji w skali całego podłoż. Przewiduje on, że będzie to wykorzystywane do tradycyjnych zadań obliczeniowych o wysokiej wydajności, takich jak przetwarzanie sygnałów, prognozowanie pogody, symulacja/emulacja, a nawet switching w sieci.

    „W technice istnieją cykle; takie jak prawo Moore'a, które mówi o tym, że można zmniejszyć urządzenia półprzewodnikowe, a ktoś za to zapłaci - każde pokolenie tych zmian było trudne, ale wiedziałeś, że warto” powiedział Weber. „Integracja w skali całego podłoża może być podobna. Jej problemy są trudne, ale nie niemożliwe do przezwyciężenia. A teraz dzięki uczeniu maszynowemu jest ku temu powód biznesowy. (…) Integracja taka od dłuższego czasu bardzo mnie interesuje ze względu na moje doświadczenie w Kendall Square Research, gdzie pracowałem nad przetwarzaniem równoległym”.

    „Trening AI nie jest aplikacją niszową. Jesteśmy na samym początku tego, co AI może zrobić, ponieważ jest to ogólna platforma. Trzeba powiedzieć to stanowczo - AI to paradygmat obliczeniowy, a nie konkretna aplikacja” powiedział Weber. W związku z tym „Cerebras jest najciekawszym z wielu start-upów, z którymi jestem zaangażowany, ponieważ jest to zarówno maszyna do sztucznej inteligencji, jak i zupełnie nowy sposób na zbudowanie komputera” podsumował Weber.

    Źródło: https://www.eetimes.com/document.asp?doc_id=1335043#

    Fajne! Ranking DIY
    O autorze
    ghost666
    Tłumacz Redaktor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 napisał 9365 postów o ocenie 6954, pomógł 157 razy. Mieszka w mieście Warszawa. Jest z nami od 2003 roku.
  • #2
    szymon122
    Poziom 38  
    Chciałbym zobaczyć na żywo procesor 20x20cm i jego chłodzenie :D
  • #3
    ghost666
    Tłumacz Redaktor
    szymon122 napisał:
    Chciałbym zobaczyć na żywo procesor 20x20cm i jego chłodzenie :D


    Ja bym na zdjęciu chociaż chciał zobaczyć :D