REKLAMA

Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Google: TPU pokonało NVidię i Intela

ghost666 09 Kwi 2017 15:05 5460 3

REKLAMA

Zgłoś naruszenie prawa

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas

Autor tematu Pomocny post? (+2)

Post #1
16402272 09 Kwi 2017 15:05

Opracowana przez Google jednostka przetwarzania tensorowego (TPU) pobiła w zakresie wydajności w systemach uczenia maszynowego system oparty na procesorze Intel Xeon i GPU NVidii o cały rząd wielkości. Opublikowany właśnie 17 stronicowy artykuł opisuje dokładnie jakie testy przeprowadzono i jakie były ich wyniki: TPU jest około 15 razy szybsze i dostarcza 30 razy więcej mocy obliczeniowej na wat niż konkurencja.
W maju zeszłego roku Google ogłosił, że rozpoczyna produkcję układów ASIC stworzonych do systemów uczenia maszynowego, jakie wykorzystuje w swoich data-center. Obecnie udostępniane są pierwsze analizy tych układów.
"Chcemy zatrudniać dobrych inżynierów i chcemy, aby wiedzieli oni że dostarczają najwyższej jakości rozwiązań - chcemy aby klienci naszej chmury znali nasze możliwości: mówił Norman P. Jouppi, inżynier sprzętowy, który koordynuje pracę około 70 inżynierów w grupie zajmującej się tworzeniem TPU. Jednym z projektantów systemu był emerytowany profesor U.C. Berkely, David Patterson. Jest on weteranem projektowania architektur procesorów.
TPU wykorzystuje się obecnie w Google do przetwarzania danych, aczkolwiek firma odmawia bliższych komentarzy np. tego na jaką skalę zaimplementowano ten system w serwerach.
TPU to pobierający około 40 W procesor wyprodukowany w technologii 28 nm. Taktowany jest zegarem 700 MHz i wykorzystywany do akceleracji stworzonego przez Google algorytmu TensorFlow. Główna jednostka logiczna tych układów składa się z 65536 8 bitowych układów mnożąco-akumlujących o 24 megabitów pamięci cache. System ten dostarcza możliwość realizacji 92 teraoperacji na sekundę.
Jak wynika z przeprowadzonych w 2015 roku przez Google testów, w zakresie algorytmów uczenia maszynowego TPU działa od 15 do 30 razy szybciej i dostarcza od 30 do 80 razy lepszą wydajność na wat pobranej mocy niż procesory serwerowe Intel Haswell i GPU K80 produkowane przez NVidię. "Ogromna poprawa wydajności na wat była głównym uzasadnieniem wykorzystania dedykowanego ASICa" czytamy w raporcie.
Wykorzystane do testów procesory, to 22 nm 18 rdzeniowy Intel Haswell E5-2699 v3 pobierający 145 W i taktowany 2,3 GHz oraz Nvidia GPU K80 o poborze 150 W i zegarze 875 MHz.

TPU wykorzystuje takie samo oprogramowanie TensorFlow, jak akceleratory oparte na GPU - wystarczy wymienić tylko driver w rdzeniu aplikacji.
Specjaliści z Google odkryli, że na działanie układu największy wpływ ma przepustowość układów pamięci - podnoszenie zegara taktującego procesor dawało o wiele mniejsze benefity.
Google informuje jednocześnie, że od czasu przeprowadzenia testów w 2015 roku sporo się zmieniło. Intel zaprezentował CPU wykonane w procesie 14 nm, a NVidia GPU 16 nm. Z drugiej natomiast strony w nowych akceleratorach TPU planuje się wykorzystanie pamięci GDDR5 (z takiej korzystał K80) zamiast wykorzystywanej obecnie DDR3.
"W przyszłości CPU i GPU z pewnością będzie szybsze, jednakże akcelerator z TPU i dwuletnimi pamięciami jest i tak 70 razy szybszy niż dwuletnie GPU i 200 razy szybszy niż dwuletnie CPU, podsumowują przedstawiciele Google. Jak dodają, częściowo wynikać może to z tego, że ciężko realizować jest na procesorach Intela, 8 bitowe operacje.
Jak przyznaje firma układy GPU w przyszłości mogą zbliżyć się do wymagań firmy, ale z drugiej strony "Jest pełno sposobów, na jakie możemy jeszcze zoptymalizować TPU, więc nie jest to prosty konkurent", jak mówią przedstawiciele Google.

Jak czytamy w dokumencie, producenci układów zanadto skupili się na konwolucyjnych sieciach neuronowych (CNN), a nie są to wcale najpopularniejsze ich rodzaje w realnych aplikacjach. Wielowarstwowe perceptrony (MLP) to około 61% zadań dla AI Google, CNN jest zaledwie 5%.
"Jakkolwiek CNN mogą być popularne w niektórych aplikacjach, to ilość modeli konwolucyjnych nie zbliżyła się nawet do MLP czy LSTM (Długa pamięć krótkoterminowa) w naszych data-center. Mamy nadzieję, że architekci układów skupią się na MLP i LSTM tak samo jak skupiają się na CNN, czytamy w informacjach Google. Przypomina to sytuację w której firmy skupiały się na wydajności zmiennoprzecinkowej CPU, a okazało się, że obliczenia na procesorach zdominowane są przez liczby całkowite.

Źródło: http://www.eetimes.com/document.asp?doc_id=1331560

Fajne? Ranking DIY
O autorze
ghost666 ghost666

Tłumacz Redaktor
Offline

Dołączył: 10 Cze 2003

Posty: 11961

Pomógł: 157

Ocena postów: 10261

Punkty: 139496
Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
https://twitter.com/Moonstreet_Labs
ghost666 napisał 11961 postów o ocenie 10261, pomógł 157 razy. Mieszka w mieście Warszawa. Jest z nami od 2003 roku.

Promuję tematy:
05.08.2024 Jakie strategie przyciągania talentów do branży półprzewodnikowej są skuteczne w 2024 roku?
02.08.2024 Microchip prezentuje nowe układy PIC64 dla aplikacji wbudowanych i kosmicznych
30.07.2024 Tenstorrent Quiet Box: Nowa stacja robocza AI dla deweloperów
27.07.2024 Impulsowa depozycja laserowa (PLD) w masowej produkcji półprzewodników
25.07.2024 Te podstępne diody i ich wpływ na działanie układów analogowych
REKLAMA
#2 16404382 10 Kwi 2017 15:03

Konto nie istnieje Konto nie istnieje

Poziom 1

Post #2
16404382 10 Kwi 2017 15:03

"Zwykły procesor" jest zwykły przez to, że musi być uniwersalny a na podłożu krzemowym o ograniczonych rozmiarach można umiecić ograniczoną ilość elementów czyli instrukcji logicznych nie zapominając o granicy częstotliwości pracy i TDP. Specjalizowane układy przetwarzania danych nie są uniwersalne za to mają w swoim wąskim zastosowaniu wyraźną przewagę nad uniwersalnymi jednostkami przetwarzającymi. Dobrym przykładem są "koparki" Bitcoina zbudowane w oparciu o ASIC. Wprawdzie zwykły laptopowy czy desktopowy procesor wypada dosyć żałośnie w "liczeniu bloków" ale gdy wzrasta poziom trudności i dany ASIC staje się przestarzały, przede wszystkim energetycznie, to najwyżej może posłużyć jako wystrój piwnicy właściciela. Do niczego więcej.
Obecnie poszukuje się różnych rozwiązań umożliwiajacych przetwarzanie, szczególnie dużych zbiorów danych. Tradycyjna technologia zbliża się do ściany granic fizycznych możliwości materiałów.
Innym przykładem podejścia do przetwarzania danych jest Automata Micron-a http://www.micronautomata.com/ .
Z tych technologii póki co niewiele wynika gdyż nie są one upowszechniane a bywa całkiem często, że są na te rozwiązania nakładane różne ograniczenia sprzedażowo eksportowe. To różni je od "zwykłych" procesorów.
REKLAMA
#3 16406586 11 Kwi 2017 19:36

ghost666 ghost666

Tłumacz Redaktor

Posty: 11961

Pomógł: 157

Ocena: 10261
Autor tematu Pomocny post? (0)

Post #3
16406586 11 Kwi 2017 19:36

RitterX napisał:
"Zwykły procesor" jest zwykły przez to, że musi być uniwersalny a na podłożu krzemowym o ograniczonych rozmiarach można umiecić ograniczoną ilość elementów czyli instrukcji logicznych nie zapominając o granicy częstotliwości pracy i TDP. Specjalizowane układy przetwarzania danych nie są uniwersalne za to mają w swoim wąskim zastosowaniu wyraźną przewagę nad uniwersalnymi jednostkami przetwarzającymi. Dobrym przykładem są "koparki" Bitcoina zbudowane w oparciu o ASIC. Wprawdzie zwykły laptopowy czy desktopowy procesor wypada dosyć żałośnie w "liczeniu bloków" ale gdy wzrasta poziom trudności i dany ASIC staje się przestarzały, przede wszystkim energetycznie, to najwyżej może posłużyć jako wystrój piwnicy właściciela. Do niczego więcej.
Obecnie poszukuje się różnych rozwiązań umożliwiajacych przetwarzanie, szczególnie dużych zbiorów danych. Tradycyjna technologia zbliża się do ściany granic fizycznych możliwości materiałów.
Innym przykładem podejścia do przetwarzania danych jest Automata Micron-a http://www.micronautomata.com/ .
Z tych technologii póki co niewiele wynika gdyż nie są one upowszechniane a bywa całkiem często, że są na te rozwiązania nakładane różne ograniczenia sprzedażowo eksportowe. To różni je od "zwykłych" procesorów.

Koparki Bitcoinów robi się już na ASICach? kiedy to przekroczyło granicę opłacalności? Zatrzymałem się na etapie, że realizowano je na FPGA - w takim przypadku jak coś się zmienia, to wystarczy zrekonfigurować układ i już .

Promuję tematy:
05.08.2024 Jakie strategie przyciągania talentów do branży półprzewodnikowej są skuteczne w 2024 roku?
02.08.2024 Microchip prezentuje nowe układy PIC64 dla aplikacji wbudowanych i kosmicznych
30.07.2024 Tenstorrent Quiet Box: Nowa stacja robocza AI dla deweloperów
27.07.2024 Impulsowa depozycja laserowa (PLD) w masowej produkcji półprzewodników
25.07.2024 Te podstępne diody i ich wpływ na działanie układów analogowych
#4 16407117 11 Kwi 2017 22:34

szymon122 szymon122

Poziom 38

Posty: 4085

Pomógł: 302

Ocena: 754
Pomocny post? (0)

Post #4
16407117 11 Kwi 2017 22:34

ASIC było już stosunkowo od dawna, pierwsze "opłacalne układy" miały wydajność 333MH/s przy poborze prądu rzędu 2.5-5W. Dla porównania dwu rdzeniowy Intel dual core (słaby model) miał przy TDP 60W jedynie około 3x większą wydajność.

Promuję tematy:
04.01.2026 TP-Link Deco M4 - OUTDOOR MOD
09.09.2025 Test monitora przenośnego Zenwire M8P + powerbank mod
12.07.2024 Chlorator Intex 5220 w wersji mini + usunięcie błędu 91 "LOW SALT"
25.02.2021 GreenMaker V1.0 - Zaawansowana drukarka 3D
18.03.2020 Jak zmienić rezystory w ładowarce 13S by obniżyć napięcie do 52V?
Zarejestruj konto, Zaloguj się i bądź aktywny na forum, a wtedy reklamy nie będą się pojawiać. Dołącz do dyskusji i otrzymaj punkty za rejestrację oraz odpowiedzi.

Zainstaluj aplikację Elektroda

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas

Zgłoś naruszenie prawa

Wnętrze wielkiego telewizora UE55MU6452U, analiza, dekodowanie i symulacja flash za środka
05 Maj 2026 11:02 (6)
Zastanawialiście się kiedyś, co siedzi w pamięci Flash ze współczesnego telewizora? Zapraszam na krótką prezentację wnętrza telewizora Samsung UE55MU6452U 55” 4K UHD Smart TV połączoną z inżynierią wsteczną i emulacją firmware kontrolera T-Con. Pokażę tutaj, jak zbudowany jest taki telewizor, jak zrealizowane jest jego podświetlenie i jakie elementy można odzyskać ze środka. Na koniec spróbuję też... [Czytaj dalej]
Mostek, kondensator, moc bierna.
03 Maj 2026 21:11 (15)
W związku z tym tematem Eksperyment - rejestracja THD napięcia sieciowego zbudowałem układ składający się z mostka, kondensatora 220uF, żarówki 150W i bocznika do pomiaru prądu. Watomierz wtykany do gniazdka, pokazał napięcie 237V, prąd 1.74Arms, moc pozorną 414VA, moc czynną 234W i Power Faktor 0.57. Niestety nie mierzy mocy biernej. Wykres na oscyloskopie wyglądał tak. Żółty napięcie, niebieski prąd.... [Czytaj dalej]
Usprawnienie odbiornika Unitra Diora Śnieżka R-206
03 Maj 2026 13:41 (22)
Geneza pomysłu Pewnego dnia uratowałem ze śmietnika radioodbiornik Unitra Śnieżka R 206. O dziwo, po podłączeniu do sieci od razu zagrał, a dodatkowo okazał się być przestrojony! Choć nie mam wielkiego sentymentu do Unitry, ten klasyk spodobał się mojej narzeczonej, więc został w salonie na stałe. Mieszkam w Krakowie, gdzie stacje są rozmieszczone dość gęsto. Moje ulubione stacje nadają blisko siebie... [Czytaj dalej]
Dwa malutkie UPS dla routera, kamery lub Raspberry Pi - test pojemności
02 Maj 2026 10:53 (3)
Dziś testuję dwa małe urządzenia zdolne do tymczasowego podtrzymania zasilania odbiornika 5 lub 12 V w obliczu niespodziewanego zaniku energii. Pierwsze z nich to charakterystyczne czarne pudełeczko wpinane w przewód USB, operujące siłą rzeczy tylko na napięciu 5 V. Drugie jest nieco większe, rozmiarem przypomina sam router, pracuje na napięciu 12 V i ma wyjścia 5, 9 i 12 V. Zacznijmy od pierwszego... [Czytaj dalej]
Jedna ładowarka dla wszystkich. Od 28 kwietnia USB-C obowiązkowe także w laptopach w UE
30 Kwi 2026 15:41 (66)
28 kwietnia 2026 r. zaczyna obowiązywać kolejny etap unijnych przepisów dotyczących wspólnej ładowarki do urządzeń elektronicznych. Wynika to z dyrektywy Dyrektywa (UE) 2022/2380, która zmienia regulacje dotyczące urządzeń radiowych sprzedawanych w Unii Europejskiej. Od tej daty wszystkie nowe laptopy wprowadzane na rynek UE muszą obsługiwać ładowanie przez port USB-C. W praktyce oznacza to, że producenci... [Czytaj dalej]

REKLAMA