Elektroda.pl
Elektroda.pl
X
Proszę, dodaj wyjątek dla www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

Akceleratory AI: TOPSy to nie wszystko

ghost666 23 Gru 2019 16:03 498 0
  • Akceleratory AI: TOPSy to nie wszystko
    W dobie dynamicznie rozwijającego się sektora systemów sztucznej inteligencji niezwykle istotnym pytaniem jest sposób oceny jakości algorytmów i sprzętu AI. Obecnie pracuje się nad stworzeniem uniwersalnej metryki wydajności w algorytmach AI.

    W świecie akceleratorów AI wydajność układów scalonych jest często podawana w tera-operacjach (bilionach operacji) na sekundę (TOPS) dla danego algorytmu. Jest jednakże wiele powodów, dla których może to nie być najlepsza metryka do oceny sprzętu.

    "To, czego naprawdę chcą klienci, to wysoka przepustowość za dolara" mówi Geoff Tate, dyrektor generalny firmy Flex Logix (na zdjęciu po prawej stronie).

    Akceleratory AI: TOPSy to nie wszystko
    Tate wyjaśnił, że posiadanie większej liczby TOPS niekoniecznie koreluje się z wyższą przepustowością. Jest to szczególnie prawdziwe w aplikacjach krawędziowych, w których wielkość partii danych zazwyczaj równa jest jeden. Aplikacje, takie jak centra danych itp mogą zwiększać swoją przepustowość poprzez przetwarzanie wielu danych wejściowych równolegle przy użyciu większych ich partii (ponieważ mają zapasową wydajność), ale nie jest to zbyt odpowiednie dla urządzeń brzegowych, które przetwarzać muszą w czasie zbliżonym do rzeczywistego pojedyncze zestawy danych.

    Porównać można na przykład urządzenie InferX X1 Flex Logix z wiodącym na rynku układem GPU. Podczas gdy procesor graficzny oferuje o wiele większą przepustowość - trzy do czterech razy większą, przy 10-krotności TOPS, ale wykorzystuje osiem razy więcej pamięci DRAM. Tate wskazuje, że układy Flex Logix, jakkolwiek nie są wydajniejsze w liczbie TOPSów, to są znacznie bardziej zasobooszczędne, a w konsekwencji także tańsze.

    Proponowana przez dyrektora Flex Logix metryka - przepustowość na dolara - wydaje się bardzo rozsądna w zastosowaniach komercyjnych, ale w praktyce nie zawsze łatwo jest znaleźć wiarygodne informacje o kosztach użytkowania poszczególnych produktów. Uniemożliwia to bezpośrednie porównania. Czynniki takie jak wymagana ilość pamięci DRAM lub powierzchnia krzemu danego układu mogą być ważnym wskaźnikiem wpływającym na koszt, ale w żadnym wypadku nie są to precyzyjne wskaźniki.

    ResNet-50

    Innym problemem związanym z pomiarem TOPS jest to, że często jest mierzony podczas działania algorytmu ResNet-50. "ResNet-50 nie jest absolutnym punktem odniesienia dla wszystkich klientów, ale jest tym, który ludzie najczęściej zgłaszają" powiedział Tate. Źródłem problemów z wykorzystaniem tego algorytmu do testó jest to, że używa on bardzo małych obrazów. ResNet-50, uważany obecnie za nieaktualny już algorytm, obecny jest na rynku już od jakiegoś czasu. stał się de facto standardem przy podawaniu liczb TOPS.

    Istnieją dobre powody, aby nadal używać go jako standardu. Powody te obejmują m.in. starania, aby wszystkie wyniki były przynajmniej częściowo ze sobą porównywalne w przyszłości, oraz utrzymanie tego standardu de facto z uwagi na to, że algorytm ten dostępny jest dla wszystkich typów urządzeń, nawet tych najmniejszych. Z drugiej strony ResNet-50 nie jest wystarczający, aby rzucić wyzwanie dzisiejszym ogromnym układom scalonym zbudowanym do wnioskowania na poziomie centrów danych; nie jest też w stanie poprawnie ocenić na plus tego, co te układy potrafią.

    Benchmarki branżowe

    Oprócz tego de facto standardu istnieją w branży różne organizacje opracowujące swoje, niezależne testy porównawcze dla akceleratorów AI. Przykłądem może być MLPerf, który opublikował wyniki oceny systemów dla wnioskowania, ale Tate uważa, że ​​ten test porównawczy jest zbyt zorientowany na duże centra danych. Twierdzi on, że przykładem tego jest zaproponowany test: w scenariuszu z pojedynczym strumieniem danych, w którym rozważa się urządzenie brzegowe przetwarzające jeden obraz na raz, metryką wydajności jest dziewięćdziesiąty percentyl opóźnienia systemu.

    "Na marginesie, nie sądzę, aby klienci chcieli znać dziewięćdziesiąty percentyl, chcą znać setny. Chcą wiedzieć: co może być zagwarantowane" powiedział Tate, powołując się na przykład aplikacji układów AI w systemach pojazdów autonomicznych, gdzie niskie opóźnienia są krytyczne dla poprawnego działania systemu.

    Akceleratory AI: TOPSy to nie wszystko
    Opóźnienia związane z długim ogonem w wykresach statystycznych są z resztą klasycznym problemem w systemach, w których występuje współdzielona magistrala danych, ponieważ informacje są przesyłane między wieloma rdzeniami procesora a pamięcią. Podczas gdy wiele współczesnych urządzeń korzysta z interfejsów pamięci o dużej przepustowości, nadal istnieje teoretyczny limit, podczas gdy rywalizacja o dostęp do magistrali jest możliwy.

    Procesor wnioskowania oparty na układzie FPGA Flex Logix ma za każdym razem dokładnie takie samo opóźnienie. "Ponieważ używamy interkonektu zaimplementowanego w FPGA, (...) istnieje całkowicie dedykowana ścieżka od pamięci przez multipleksery do logiki aktywacji i z powrotem do pamięci. Nie ma więc problemu: wszystko po prostu płynie. Nie uzyskujemy stuprocentowego wykorzystani układu, ale uzyskujemy znacznie większe wykorzystanie go niż wszystkie inne architektury" powiedział Tate.

    Uwarunkowania rynkowe

    Jeśli chodzi o eksplozję liczby start-upów z chipami w tym sektorze, Tate jest optymistycznie nastawiony do perspektyw Flex Logix. Gdy chipy wejdą do produkcji i pojawi się gotowe oprogramowanie możliwe będzie uruchomienie i prezentacja wersji demonstracyjnej. Wtedy możliwe będzie ocenienie ceny i wydajności poszczególnych rozwiązań, co spowoduje, że firmy, które nie są na samym topie po prostu znikną z rynku.

    Według prognozy Tate sektor ten może pomieścić 10 lub 15 układów dedykowanych dla różnych segmentów rynku (szkolenie, wnioskowanie, centra danych, ukłądy o niskim poborze mocy etc). Dostępne dziś oferty akceleratorów obejmują wiele rzędów wielkości pod względem mocy obliczeniowej, więc nie wszystkie one konkurują ze sobą bezpośrednio. "W nadchodzącym roku lub dwóch nastąpi gigantyczna redukcja" mówi o liczebności akceleratorów na rynku Tate. Nawiązując do słynnego cytatu Warrena Buffetta podsumowuje "Kiedy odpłynie fala, możesz zobaczyć, kto pływa nago".

    Źródło: https://www.eetimes.com/ai-accelerators-tops-is-not-the-whole-story/a

    Fajne! Ranking DIY
    O autorze
    ghost666
    Tłumacz Redaktor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 napisał 9501 postów o ocenie 7547, pomógł 157 razy. Mieszka w mieście Warszawa. Jest z nami od 2003 roku.