Nvidia przedstawiła na konferencji GTC w marcu tego roku nową koncepcję nazwaną: „Superchip”. Firma mówi tak na swoje moduły z dwiema jednostkami obliczeniowymi; Grace Superchip ma dwa procesory Grace, a Grace Hopper po jednym CPU Grace i GPU Hopper. Ten drugi układ wyposażono w połączenie NVLink-C2C osiągające 900 GB/s pomiędzy CPU Grace a GPU Hopper, skutecznie rozszerzając pamięć Hoppera do 600 GB (w pojedynkę ma 80 GB). Jest to kluczowe w akceleracji sztucznej inteligencji, ponieważ modele AI gwałtownie rosną, a utrzymywanie całego w jednym GPU skraca opóźnienie podczas wnioskowania (co jest szczególnie ważne w przypadku hiperskalerów obsługujących NLP i rekomendacje w czasie rzeczywistym). Według Nvidii oznacza to 15-krotne zwiększenie prędkości przetwarzania danych. Grace Hopper działa już w superkomputerach, w tym w ALPS w Szwajcarii.
„Jest to interesujące, ponieważ sprawność energetyczna to obecnie bardzo ważna wartość” — wskazał Ian Buck, wiceprezes Hyperscale i HPC w Nvidii (na zdjęciu po prawej). „Zapotrzebowanie na arsenał obliczeniowy nie zwalnia. Możemy budować superkomputery, które są szybsze, lepsze i zużywają mniej energii, aby zastąpić poprzednie, nie tak wydajne systemy... możesz faktycznie zniwelować wydatkowanie zasobów, przechodząc na bardziej efektywne architektury, takie jak Grace Hopper”. Oprócz skrócenia czasu rozwiązania, innym sposobem na ograniczenie wykorzystania energii jest zmniejszenie potrzeb obliczeniowych przy niektórych obciążeniach. „Tradycyjna symulacja nigdzie się nie wybiera — będziemy nadal za jej pomocą profilować klimat, pogodę, dynamikę molekularną i białka przy użyciu podstawowych zasad fizyki — ale jeśli możemy rozszerzyć niektóre jej typy o sztuczną inteligencję, uda się ją przyspieszyć, aby mogła wykonać swoją pracę przy znacznie mniejszej liczbie cykli zegara i w krótszym czasie” — podsumował Buck. Ogólnym efektem jest skromniejsze zużycie energii.
Superchip Grace
Zawiera on 144 rdzenie ARM z łączną przepustowością pamięci zbliżoną do 1 TB/s, z połączeniem osiągającym współczynnik SPECint równy 740 (dla testu porównawczego kompilatora GCC). „Grace pozwala nam budować procesor zaprojektowany z myślą o infrastrukturze sztucznej inteligencji” — wskazuje Buck, dodając, że całość używa standardowego rdzenia ARM v9 z najnowszej gamy produktów ARM, z typowym zestawem instrukcji. „W Grace chodzi o wzięcie zwykłego rdzenia ARM i skonstruowanie najlepszego możliwego układu, który można stworzyć w celu uzupełnienia naszych GPU dla AI”.
Każdy procesor współpracuje z 16 specjalnie wykonanymi chipletami pamięci LPDDR5X (8x z przodu, 8x z tyłu) ze wbudowanym ECC, dzięki czemu nadaje się do zastosowań w centrach danych, ale już nie do bardziej typowych aplikacji mobilnych czy urządzeń brzegowych. Pamięć jest ściśle powiązana z procesorem, aby zapewnić ogromną przepustowość — 500 GB/s dla każdej jednostki Grace.
LPDDR (gdzie LP oznacza niską moc) oferuje znacznie lepszą wydajność na wat niż standardowe układy DDR. To i nietypowy współczynnik kształtu przyczyniają się w przypadku Grace do bycia kompaktowym, wydajnym procesorem. Efektywność (na wat) jest około dwukrotnie większa niż w odniesieniu do innych CPU dostępnych obecnie na rynku. Pomijając możliwość zasilania jednego lub większej ilości procesorów graficznych Hopper, superchip Grace będzie również wykorzystywany jako akcelerator dla obciążeń naukowych. Funkcje akceleracji obejmują skalowalne rozszerzenie wektorowe obsługujące model programowania oparty na agnostyce wektorowej (VLA). Ten może dostosowywać się do długości wektora. VLA oznacza, że ten sam program może działać bez ponownej kompilacji lub przepisywania, jeśli w dalszej linii trzeba użyć dłuższych wektorów.
„Jest to najwyższa zdolność procesora do przeprowadzania operacji wymagających sporej mocy obliczeniowej, zdecydowanie jest zainteresowanie tą przestrzenią” — wskazuje Buck. „W pracy z akceleracją wykonaną do tej pory, skupiliśmy się na aplikacjach, w których wykorzystuje się większość cykli obliczeniowych. Gorące obszary to dynamika molekularna, fizyka, energia i jest długi ogon aplikacji HPC, które nie zostały zaadoptowane na GPU”. Buck wyjaśnił, że istnieją dwa główne powody, dla których kod nie mógłby być jeszcze przeniesiony na procesor graficzny. „Jest masa aplikacji napisanych w Fortranie, których nie można modyfikować, ponieważ są one certyfikowane dla konkretnego przypadku użycia lub przepływu pracy. A przepisanie ich zmieniłoby funkcjonalność w sposób wymagający ponownej certyfikacji” — powiedział. „Są to wciąż bardzo ważne obciążenia, które nadal wymagają obsługi i potrzebują lepszych procesorów”.
Innym powodem jest to, że kod zespołowy może być używany do takich rzeczy, jak symulacja klimatu, gdzie mogą istnieć setki mniejszych modeli matematycznych. Pojedynczo mogą nie wymagać dużej mocy obliczeniowej, ale jest ich dużo, więc przeniesienie ich wszystkich zajmie sporo czasu. „Możemy podkręcić tempo symulacji klimatu, nie tylko dając im Hoppera, który będzie świetny w częściach akcelerowanych przez GPU, ale także Grace. Pomoże to przyspieszyć resztę kodu używanego w globalnym modelu klimatycznym, który próbuje odzwierciedlać dosłownie wszystko, czego doświadcza Ziemia, od promieniowania słonecznego po tworzenie się chmur, prądy oceaniczne, leśnictwo, jak oddychają lasy deszczowe… istnieje ogromna lista symulacji, które są prowadzone równolegle”.
Jak wskazuje Buck, podczas gdy niektóre mniejsze modele nie działają zbyt długo, prawo Amdahla wymaga, aby one również zostały podkręcone, by osiągnąć ogólne przyspieszenie. „W tym właśnie pomoże Grace” — oznajmił. Nowe superchipy pozwolą także na różne konfiguracje jednorodnych lub heterogenicznych obliczeń. „Wchodzimy w naprawdę interesującą przestrzeń, w której tradycyjnie używaliśmy jednego układu CPU na cztery GPU, a to dlatego, że skupiliśmy naszą wartość na obciążeniach GPU” — opisuje. „Być może zarządzała tym centralna jednostka CPU, ale może istnieje osobny klaster procesorów do obsługi obciążeń. [...] Grace Hopper będzie ciekawym doświadczeniem, ponieważ teraz masz stosunek jeden do jednego. Tym samym możesz potencjalnie zbudować superkomputer, który świetnie poradzi sobie zarówno z wieloma operacjami CPU, jak i GPU. Wszystko w jednym” — podsumował.
Serwery z superchipami
Producenci serwerów reagują na zainteresowanie rynku HPC wydajnością, jaką mogą zaoferować superchipy. Grace Superchip będą dostępne w Supermicro w pierwszej połowie przyszłego roku. Tymczasem na targach Computex producenci: Supermicro, Gigabyte, Asus, Foxconn, QCT i Wiwynn przedstawili swoje plany tworzenia serwerów z superchipami od Nvidii. Na przykład Supermicro wskazuje, że początkowo wdroży ograniczoną ich liczbę z jednostkami Grace.
Pierwsze z Grace i Grace Hopper powinny być dostępne w połowie przyszłego roku.
Źródło: https://www.eetimes.com/supercharging-hyperscale-and-hpc-with-superchips/
„Jest to interesujące, ponieważ sprawność energetyczna to obecnie bardzo ważna wartość” — wskazał Ian Buck, wiceprezes Hyperscale i HPC w Nvidii (na zdjęciu po prawej). „Zapotrzebowanie na arsenał obliczeniowy nie zwalnia. Możemy budować superkomputery, które są szybsze, lepsze i zużywają mniej energii, aby zastąpić poprzednie, nie tak wydajne systemy... możesz faktycznie zniwelować wydatkowanie zasobów, przechodząc na bardziej efektywne architektury, takie jak Grace Hopper”. Oprócz skrócenia czasu rozwiązania, innym sposobem na ograniczenie wykorzystania energii jest zmniejszenie potrzeb obliczeniowych przy niektórych obciążeniach. „Tradycyjna symulacja nigdzie się nie wybiera — będziemy nadal za jej pomocą profilować klimat, pogodę, dynamikę molekularną i białka przy użyciu podstawowych zasad fizyki — ale jeśli możemy rozszerzyć niektóre jej typy o sztuczną inteligencję, uda się ją przyspieszyć, aby mogła wykonać swoją pracę przy znacznie mniejszej liczbie cykli zegara i w krótszym czasie” — podsumował Buck. Ogólnym efektem jest skromniejsze zużycie energii.
Superchip Grace
Zawiera on 144 rdzenie ARM z łączną przepustowością pamięci zbliżoną do 1 TB/s, z połączeniem osiągającym współczynnik SPECint równy 740 (dla testu porównawczego kompilatora GCC). „Grace pozwala nam budować procesor zaprojektowany z myślą o infrastrukturze sztucznej inteligencji” — wskazuje Buck, dodając, że całość używa standardowego rdzenia ARM v9 z najnowszej gamy produktów ARM, z typowym zestawem instrukcji. „W Grace chodzi o wzięcie zwykłego rdzenia ARM i skonstruowanie najlepszego możliwego układu, który można stworzyć w celu uzupełnienia naszych GPU dla AI”.
Każdy procesor współpracuje z 16 specjalnie wykonanymi chipletami pamięci LPDDR5X (8x z przodu, 8x z tyłu) ze wbudowanym ECC, dzięki czemu nadaje się do zastosowań w centrach danych, ale już nie do bardziej typowych aplikacji mobilnych czy urządzeń brzegowych. Pamięć jest ściśle powiązana z procesorem, aby zapewnić ogromną przepustowość — 500 GB/s dla każdej jednostki Grace.
LPDDR (gdzie LP oznacza niską moc) oferuje znacznie lepszą wydajność na wat niż standardowe układy DDR. To i nietypowy współczynnik kształtu przyczyniają się w przypadku Grace do bycia kompaktowym, wydajnym procesorem. Efektywność (na wat) jest około dwukrotnie większa niż w odniesieniu do innych CPU dostępnych obecnie na rynku. Pomijając możliwość zasilania jednego lub większej ilości procesorów graficznych Hopper, superchip Grace będzie również wykorzystywany jako akcelerator dla obciążeń naukowych. Funkcje akceleracji obejmują skalowalne rozszerzenie wektorowe obsługujące model programowania oparty na agnostyce wektorowej (VLA). Ten może dostosowywać się do długości wektora. VLA oznacza, że ten sam program może działać bez ponownej kompilacji lub przepisywania, jeśli w dalszej linii trzeba użyć dłuższych wektorów.
„Jest to najwyższa zdolność procesora do przeprowadzania operacji wymagających sporej mocy obliczeniowej, zdecydowanie jest zainteresowanie tą przestrzenią” — wskazuje Buck. „W pracy z akceleracją wykonaną do tej pory, skupiliśmy się na aplikacjach, w których wykorzystuje się większość cykli obliczeniowych. Gorące obszary to dynamika molekularna, fizyka, energia i jest długi ogon aplikacji HPC, które nie zostały zaadoptowane na GPU”. Buck wyjaśnił, że istnieją dwa główne powody, dla których kod nie mógłby być jeszcze przeniesiony na procesor graficzny. „Jest masa aplikacji napisanych w Fortranie, których nie można modyfikować, ponieważ są one certyfikowane dla konkretnego przypadku użycia lub przepływu pracy. A przepisanie ich zmieniłoby funkcjonalność w sposób wymagający ponownej certyfikacji” — powiedział. „Są to wciąż bardzo ważne obciążenia, które nadal wymagają obsługi i potrzebują lepszych procesorów”.
Innym powodem jest to, że kod zespołowy może być używany do takich rzeczy, jak symulacja klimatu, gdzie mogą istnieć setki mniejszych modeli matematycznych. Pojedynczo mogą nie wymagać dużej mocy obliczeniowej, ale jest ich dużo, więc przeniesienie ich wszystkich zajmie sporo czasu. „Możemy podkręcić tempo symulacji klimatu, nie tylko dając im Hoppera, który będzie świetny w częściach akcelerowanych przez GPU, ale także Grace. Pomoże to przyspieszyć resztę kodu używanego w globalnym modelu klimatycznym, który próbuje odzwierciedlać dosłownie wszystko, czego doświadcza Ziemia, od promieniowania słonecznego po tworzenie się chmur, prądy oceaniczne, leśnictwo, jak oddychają lasy deszczowe… istnieje ogromna lista symulacji, które są prowadzone równolegle”.
Jak wskazuje Buck, podczas gdy niektóre mniejsze modele nie działają zbyt długo, prawo Amdahla wymaga, aby one również zostały podkręcone, by osiągnąć ogólne przyspieszenie. „W tym właśnie pomoże Grace” — oznajmił. Nowe superchipy pozwolą także na różne konfiguracje jednorodnych lub heterogenicznych obliczeń. „Wchodzimy w naprawdę interesującą przestrzeń, w której tradycyjnie używaliśmy jednego układu CPU na cztery GPU, a to dlatego, że skupiliśmy naszą wartość na obciążeniach GPU” — opisuje. „Być może zarządzała tym centralna jednostka CPU, ale może istnieje osobny klaster procesorów do obsługi obciążeń. [...] Grace Hopper będzie ciekawym doświadczeniem, ponieważ teraz masz stosunek jeden do jednego. Tym samym możesz potencjalnie zbudować superkomputer, który świetnie poradzi sobie zarówno z wieloma operacjami CPU, jak i GPU. Wszystko w jednym” — podsumował.
Serwery z superchipami
Producenci serwerów reagują na zainteresowanie rynku HPC wydajnością, jaką mogą zaoferować superchipy. Grace Superchip będą dostępne w Supermicro w pierwszej połowie przyszłego roku. Tymczasem na targach Computex producenci: Supermicro, Gigabyte, Asus, Foxconn, QCT i Wiwynn przedstawili swoje plany tworzenia serwerów z superchipami od Nvidii. Na przykład Supermicro wskazuje, że początkowo wdroży ograniczoną ich liczbę z jednostkami Grace.
Pierwsze z Grace i Grace Hopper powinny być dostępne w połowie przyszłego roku.
Źródło: https://www.eetimes.com/supercharging-hyperscale-and-hpc-with-superchips/
Cool? Ranking DIY