Elektroda.pl
Elektroda.pl
X
Please add exception to AdBlock for elektroda.pl.
If you watch the ads, you support portal and users.

Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf

ghost666 21 Nov 2022 08:32 342 0
  • Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf
    Nvidia wykorzystała aktualną rundę publikowania wyników wnioskowania benchmarkiem MLPerf, aby zadebiutować publicznie w testach porównawczych swojego najnowszego flagowego procesora graficznego — H100. Jest to pierwszy układ scalony zbudowany przez Nvidię w architekturze Hopper ze specjalnie zaprojektowanym silnikiem transformatorowym. H100 ma przewyższać obecny flagowiec Nvidii, procesor A100, o około 1,5-2 raza, jeśli chodzi o osiągi obliczeniowe, z wyjątkiem wyników testu BERT, gdzie skok ma być jeszcze bardziej wyraźny przy nawet 4,5-krotnym wzroście efektywności.

    Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf
    Wykres Nvidii pokazuje wydajność nowego H100 w stosunku do poprzedniej generacji elementów firmy (A100), a także w zestawieniu z konkurencyjnym sprzętem.


    Dlaczego przy trzykrotnie większej surowej wydajności A100, niektóre wyniki testów porównawczych z H100 są mniej niż dwukrotnie lepsze? „Podczas gdy liczby FLOPS i TOPS są przydatnym początkowym zestawem drogowskazów, niekoniecznie przewidują one efektywność realnej aplikacji” — mówi Dave Salvator, dyrektor ds. wnioskowania AI, testów porównawczych i chmury w firmie Nvidia. „Istnieją inne czynniki, w tym charakter architektury sieci, którą obsługujesz. Niektóre są mocniej powiązane z wejściami i wyjściami, inne są bardziej z obliczeniami… to zależy od sieci”. Dodał również, że jest miejsce na poprawę rezultatów H100 w miarę dojrzewania jego oprogramowania. „To pierwszy pokaz dla Hoppera… w baku jest jeszcze paliwo” — oznajmił.

    Salvator zwrócił również uwagę, że wyniki A100 poprawiły się sześciokrotnie od czasu pierwszego pokazu MLPerf tego akceleratora w lipcu 2020 roku. „Większość z nich pochodzi z optymalizacji i dostrajania oprogramowania, z których wiele trafia do naszych kontenerów na NGC [portal oprogramowania Nvidii], te z kolei mogą być wykorzystywane przez programistów”.

    Wyróżniającym się był wynik H100 w teście BERT-Large, gdzie spisywał się aż 4,5 razy lepiej niż układ A100. Wśród nowych funkcji H100 jest sprzętowy i programowy silnik transformatorowy, który zarządza precyzją obliczeń podczas treningu, aby uzyskać najwyższą przepustowość przy zachowaniu jak najakuratniejszej dokładności. Chociaż ta opcja jest bardziej odpowiednia do szkolenia, ma zastosowanie do wnioskowania, jak wskazuje Salvator. „W grę wchodzi w dużej mierze precyzja FP8, ale także kilka innych aspektów architektonicznych H100. Ważną rolę odgrywa fakt, że mamy więcej możliwości obliczeniowych, procesorów strumieniowych, rdzeni tensorowych i mocy obliczeniowych” — wskazał. H100 również w przybliżeniu podwaja przepustowość pamięci w porównaniu do A100.

    Niektóre części benchmarku BERT 99.9 działały w FP16, a inne w FP8 — tajnym składnikiem systemu jest tutaj wiedza, kiedy przeskoczyć do wyższej precyzji, aby zachować dokładność, co jest składową tego, co robi silnik transformatora. Nvidia wykazała również poprawę o około 50% sprawności energetycznej dla swojego SoC Orin dedykowanego do pracy na krawędzi, który to Salvator wykorzystał na ostatnim etapie działań, aby znaleźć w czasie rzeczywistym idealne poziomy częstotliwości i napięcia zasilającego nowy układ (MaxQ).

    Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf
    Bilans efektywności energetycznej Orin w porównaniu z ostatnią rundą wyników.


    Salvator wskazał, że rezultaty porównawcze dla systemów Grace CPU, Grace Hopper i pomiary mocy dla H100 powinny być dostępne, gdy produkty trafią na rynek, co ma nastąpić w pierwszej połowie przyszłego roku.

    Qualcomm

    Główny rywal Nvidii, firma Qualcomm, skupiła się na wydajności energetycznej swojego akceleratora Cloud AI 100. Qualcomm uruchamia ten sam układ w różnych obudowach o odmiennym poziomie mocy w centrach danych i w zastosowaniach brzegowych. Qualcomm i jego partnerzy, w tym marki takie jak Dell, HPE, Lenovo, Inventec czy Thundercomm, przesłały ponad 200 wyników osiągniętych z pomocą Cloud AI 100. Przetestowano również trzy nowe platformy brzegowe oparte na procesorach Snapdragon z Cloud AI 100, w tym systemy Foxconn Gloria.

    Qualcomm wszedł do sektora największych systemów (18 akceleratorów) w dostępnej kategorii działu zamkniętego dla centrów danych i zdobył koronę za najlepszą wydajność osiąganą na ResNet-50 offline i serwerową. Jednak wyniki 8x Cloud AI 100 zostały z łatwością pokonane przez system Nvidia 8x A100 PCIe. (Nvidia H100 znajduje się w opcji poglądowej, ponieważ nie jest jeszcze w obiegu). Qualcomm twierdził również, że ich układ osiągnął rekordową sprawność energetyczną we wszystkich obszarach systemu zamkniętego na krawędzi i działań w ramach centrum danych.

    Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf
    Qualcomm Cloud AI 100, pracujący z ograniczeniami mocy do 75 W TDP lub niższym, dobrze radził sobie z wydajnością energetyczną urządzeń brzegowych.

    Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf
    Qualcomm odniósł również zwycięstwo w dziedzinie wydajności energetycznej w kategorii zamkniętych centrów danych, przy czym Cloud AI 100 ponownie jest tutaj ograniczony do 75 W TDP.




    Biren

    Chiński Biren zaoferował swój pierwszy zestaw rezultatów w MLPerf od czasu wyłonienia się z ukrytej (stealth) fazy rozwoju start-upu w zeszłym miesiącu. Marka ta zaprezentowała wyniki dla swojego jednochipletowego akceleratora BR104 w formacie PCIe wraz z platformą programistyczną BirenSupa. Zarówno w przypadku ResNet-50, jak i BERT 99.9, system ośmiu akceleratorów Biren oferował wydajność podobną do DGX-A100 firmy Nvidia w trybie serwera, w którym występuje ograniczenie opóźnień, ale znacznie przewyższał Nvidię DGX-A100 w ujęciu offline, co jest miarą surowej przepustowości.

    BR100 firmy Biren — który ma parę takich samych chipletów używanych pojedynczo w BR104 — nie został przetestowany, a przynajmniej podsumowanie nie zostało opublikowane. Chiński producent serwerów — Inspur — przedstawił również wyniki dla dostępnego już na rynku systemu z 4 kartami BR104 PCIe.

    Sapeon

    Kolejnym nowym uczestnikiem rankingu był Sapeon, spin-out koreańskiego giganta telekomunikacyjnego SK Telecom. Przed uruchomieniem jako zewnętrzna firma, Sapeon pracował nad swoim akceleratorem — już od 2017 roku. X220 to układ drugiej generacji, jest on obecny w obiegu od 2020 roku. Firma twierdzi, że jej jednostka znajduje się m.in. w inteligentnych głośnikach i systemach kamer bezpieczeństwa. Odniósł on zwycięstwo nad A2 firmy Nvidia, częścią generacji Ampere przeznaczoną do serwerów klasy podstawowej w systemach 5G i w zastosowaniach przemysłowych.

    Sapeon osiągnął dobre rezultaty na X220-compact, jednoukładowej karcie PCIe, zużywającej 65 W oraz X220-enterprise, która ma dwa układy X220 i spożytkowuje 135 W. Marka wskazała, że ​​X220-compact pokonał Nvidię A2 o 2,3 razy pod względem wydajności, ale był on również 2,2 razy mniej energochłonny, w oparciu o maksymalne wykorzystanie zasobów. Dzieje się tak pomimo taniej technologii (28 nm) zastosowanej do produkcji X220 (Nvidia A2 wytwarzany jest w procesie 7 nm).

    Sapeon planuje na drugą połowę 2023 roku chip trzeciej generacji — X330 — który według firmy zapewni większą precyzję i będzie obsługiwał zarówno wnioskowanie, jak i obciążenia treningowe.

    Intel

    Firma Intel przedstawiła w nowym zestawieniu wyniki podglądu swojego opóźnionego procesora Sapphire Rapids. Ten czterochipletowy Xeon do centrów danych jest pierwszym, w którym zastosowano zaawansowane rozszerzenia macierzy (AMX), które, jak twierdzi marka, umożliwiają 8 razy większą liczbę operacji na zegar w porównaniu z poprzednimi generacjami. Sapphire Rapids oferuje również więcej mocy obliczeniowych, pamięci i większą jej przepustowość niż minione serie. Intel podał, że wyniki Sapphire Rapids poprawiły się od 3,9 do 4,7 razy w zestawieniu z procesorami poprzedniej generacji w ujęciu offline i 3,7-7,8 razy w trybie serwera.

    Inne godne uwagi rezultaty

    Chińska firma Moffett przedstawiła podsumowanie w otwartym dziale dla swojej platformy, która obejmuje układy Antoum, stos oprogramowania i własne rzadkie algorytmy. Przedsiębiorstwo ma w swojej ofercie chip S4 (TDP równe 75 W) dostępny z S10 i S30 (TDP 250 W) nadal w kategorii podglądu. Architektura Antoum wykorzystuje własne jednostki przetwarzania Moffett do natywnego rzadkiego splotu wraz z tymi przetwarzania wektorowego, które zwiększają elastyczność obciążenia.

    Startup Neural Magic opracował mechanizm wnioskowania uwzględniający 'rzadkość' w procesorach. W połączeniu ze strukturą kompresji Neural Magic, która zajmuje się przycinaniem i kwantyzacją, silnik wnioskowania umożliwia wydajne działanie sieci neuronowych na procesorach poprzez zmianę kolejności wykonywania operacji. Dzięki temu informacje mogą być przechowywane w pamięci podręcznej CPU, bez konieczności przechodzenia do zewnętrznej. Wyniki firmy zostały zobrazowane na procesorach Intel Xeon 8380.

    Izraelski startup Deci przedstawił rezultaty swojej wersji BERT w otwartym dziale, bazując na CPU AMD Epyc. Oprogramowanie firmy Deci wykorzystuje algorytm do wyszukiwania optymalnej architektury sieci neuronowej, aby dostosować ją do danej jednostki CPU i często w tym procesie zmniejsza rozmiar wykorzystywanej sieci. Przyspieszenie działania w tym przypadku wynosiło 6,33-6,46 raza w stosunku do wartości wyjściowej.

    Nvidia prezentuje Hoppera w najnowszych testach porównawczych MLPerf
    Wersja BERT stworzona przez Deci, która pracowała znacznie szybciej na tym samym sprzęcie.


    Źródło: https://www.eetimes.com/nvidia-exhibits-hopper-in-latest-mlperf-benchmarks/

    Cool? Ranking DIY
    About Author
    ghost666
    Translator, editor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 wrote 11395 posts with rating 9630, helped 157 times. Live in city Warszawa. Been with us since 2003 year.