Elektroda.pl
Elektroda.pl
X
OptexOptex
Proszę, dodaj wyjątek dla www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

Start-up z nowatorskim podejściem do AI i układami o niskim poborze mocy

ghost666 29 Kwi 2020 16:56 519 3
  • Start-up z nowatorskim podejściem do AI i układami o niskim poborze mocy
    Układ Perceive Ergo
    Start-up z Doliny Krzemowej twierdzi, że na nowo "wynalazł" matematyczny opis sieci neuronowych i stworzył w ten sposób nowy akcelerator AI do pracy na krawędzi, który nie wykorzystuje dużej liczby zrównoleglonych akumulatorów w swojej strukturze, jak realizuje się to zazwyczaj. Układ ten osiąga ekwiwalentną wydajność 4 TOPS, przy imponującej sprawności – 55 TOPS/W. Firma twierdzi, że wyprodukowany przez nich chip pobiera poniżej 20 mW w czasie normalnej pracy (wspieranie YOLOv3 przy 30 fps).

    Start-up z nowatorskim podejściem do AI i układami o niskim poborze mocy
    Steve Teig
    Firma Percieve z San Jose do tej pory znajdowała się w trybie ukrytym - jako spin-out ze spółki Xperi; start-up ten był całkowicie finansowany przez swojego rodzica od czasu oficjalnego utworzenia dwa lata temu. Zespół firmy liczy obecnie 41 osób, a podobna liczba pracowników w Xperi pracuje nad aplikacjami na ten chip. Prezes i założyciel firmy, Steve Teig (na zdjęciu po prawej stronie) jest także dyrektorem technicznym Xperi; był wcześniej założycielem i dyrektorem technicznym Tabula, programowalnego start-upu z sektora logiki 3D, który zamknął swoje drzwi pięć lat temu. Wcześniej pracował jako CTO w Cadence.

    Teig wyjaśnił, że początkowym pomysłem było połączenie klasycznej wiedzy Xperi na temat przetwarzania obrazu i dźwięku z uczeniem maszynowym. Xperi jest właścicielem takich marek jak DTS, IMAX Enhanced i HD Radio - jego oferta technologiczna obejmuje oprogramowanie do przetwarzania obrazów, takie jak usuwanie czerwonych oczu na zdjęciach czy stabilizacja obrazu, które są szeroko stosowane w aparatach cyfrowych, a także oprogramowanie do przetwarzania dźwięku dla odtwarzaczy Blu-Ray.

    „Zaczęliśmy od czystej kartki papieru i wykorzystaliśmy teorię informacji, by zapytać: jakie obliczenia faktycznie wykonują sieci neuronowe? Czy istnieje inny sposób podejścia do obliczeń, który mógłby zmienić to, co jest obecnie możliwe na krawędzi?” - pyta Teig. „Po kilku latach wykonywania tej pracy odkryliśmy, że tak było. Potem zdecydowaliśmy, że powinniśmy stworzyć układ, który ucieleśnia nasze pomysły” - dodaje.

    Pomysł Teiga zaprezentowany został na płytce Xperi. Polegał on na stworzeniu układu, który mógłby w znaczący sposób realizować wnioskowanie na urządzeniach brzegowych przy budżecie mocy rzędu 20 mW. Rezultatem jest chip o wielkości 7 mm x 7 mm o nazwie Ergo, który oferuje do 4 TOPS bez zewnętrznej pamięci RAM (w rzeczywistości oferuje wydajność porównywalną do GPU o wydajności 4 TOPS). Ergo obsługuje wiele rodzajów sieci neuronowych, w tym sieci splotowe (CNN) i sieci rekurencyjne (RNN), w przeciwieństwie do wielu dostępnych na rynku rozwiązań dostosowanych do jednego tylko rodzaju sieci. Ergo może uruchomić nawet kilka heterogenicznych sieci jednocześnie.

    „Jedyną rzeczą, która ogranicza liczbę obsługiwanych sieci naraz, jest całkowita pamięć wymagana do ich uruchomienia” - powiedział Teig, dodając, że Perceive zademonstrował jednoczesne uruchamianie na układzie sieci YOLOv3 lub M2Det - z 60..70 milionami parametrów - oraz ResNet 28 z kilkoma milionami parametry plus sieci LSTM lub RNN do przetwarzania mowy i dźwięku. W rzeczywistej finalnej aplikacji może to odpowiadać przetwarzaniu obrazu i audio w tym samym czasie.

    Perceive twierdzi również, że układ Ergo jest wyjątkowo energooszczędny, osiągając 55 TOPS/W. Liczba ta jest o rząd wielkości wyższa niż osiągnięcia większości konkurentów. Dane Perceive pokazują aplikację, w której działa sieć YOLOv3 (duża sieć o 64 milionach parametrów) i analizuje obraz z prędkością 30 klatek na sekundę, zużywając przy tym zaledwie 20 mW.

    Sprawność energetyczna zależy m.in. od bramkowania mocy układu i bramkowania zegara; techniki te wykorzystują deterministyczny charakter przetwarzania sieci neuronowej - w przeciwieństwie do innych rodzajów kodu, nie ma on rozgałęzień, więc czasy obliczeń są znane w momencie kompilacji. To pozwala na precyzyjne określenie, co i kiedy należy w układzie włączać i wyłączać. „W przypadku zasilania bateryjnego układ może być dosłownie wyłączony – pobiera zero miliwatów - i mieć jakiś mikrowatowy czujnik ruchu lub mikrofon analogowy do wykrywania czegoś, co może być interesujące” - powiedział Teig. „Możemy wybudzić układ, załadować gigantyczną sieć neuronową i uruchomić ją w około 50 milisekund, łącznie z deszyfrowaniem danych. Pozostawiamy więc tylko około dwóch klatek wideo bez analizy”. Ale staranne zaprojektowanie układu to tylko część starań o minimalizację zużycia mocy.

    Teoria informacji

    „Opracowaliśmy inny sposób przedstawienia samego obliczenia i związanej z nim arytmetyki” - powiedział Teig. „Reprezentujemy samą sieć w nowy sposób i stąd czerpiemy naszą przewagę”. Perceive pracę rozpoczęło od teorii informacji - gałęzi nauki, która obejmuje matematyczne sposoby odróżniania sygnału od szumu - i wykorzystał ją do swojej koncepcji. W ten sposób udało się sprawdzić, ile obliczeń potrzeba, aby wyciągnąć ten sygnał. „Podajesz sieci miliony pikseli i wszystko, co chcesz wiedzieć, to to czy na tym zdjęciu jest pies, czy nie? Wszystko inne na zdjęciu to szum, z wyjątkiem sygnału psa. Teoria informacji pozwala uczynić algorytm kwantyfikowalnym - ile musisz wiedzieć, aby powiedzieć, czy na zdjęciu jest pies? Możesz wiedzieć to precyzyjnie”.

    Jak opisuje Teig, główne sieci neuronowe są w stanie generalizować na podstawie oglądania wielu zdjęć psów, ponieważ znalazły przynajmniej część sygnału w szumie, ale zostało to zrobione raczej w sposób empiryczny niż z matematycznym rygorem. Oznacza to, że szum jest przenoszony wraz z sygnałem, co czyni typowe sieci neuronowe bardzo dużymi i pozostawia je podatnymi na próby oszustwa. „Im więcej umiesz matematycznie dowiedzieć się, które części należy zachować, a które to tylko szum, tym lepszą pracę możesz wykonać przy uogólnieniu i tym mniej innych kosztów ogólnych musisz ponosić” - mówi Teig - „Twierdziłbym, że nawet obecne sieci neuronowe wydobywają sygnał z szumu, po prostu nie robią tego w tak rygorystyczny sposób, w wyniku czego mają dodatkową wagę”. Ten teoretyczny punkt widzenia stanowi podstawę strategii dla uczenia maszynowego układów firmy Perceive, która reprezentuje sieci neuronowe w nowy sposób. „Naprawdę jest to mariaż między teoretyczną perspektywą informacyjną, dotyczącą uczenia maszynowego a chipem, który ucieleśnia te idee” - podsumował Teig.

    Architektura chipów

    Przy dotychczasowym doświadczeniu Teiga jako CTO Tabuli, można by spodziewać się sprzętu opartego na logice programowalnej. Jednakże tutaj tak nie jest. „Od dziesięcioleci mam duży wpływ na myślenie w sektorze logiki programowalnej i budowie bogatych architektur połączeń, aby umożliwić zrównoleglanie obliczeń, ponieważ wiele z tego, co dzieje się w układzie FPGA, jest również równoległe i posiada bardzo intensywne interakcje między obliczeniami a pamięcią” - komentuje Teig - „Ta praca zdecydowanie wpłynęła na moją pracę w Perceive, ale to, co uzyskaliśmy, nie jest logiką programowalną per se. Myślenie to wpłynęło na układ, ale sama architektura oparta jest na sieciach neuronowych”.

    Struktura sieci neuronowej Perceive jest skalowalna, a początkowy układ Ergo ma cztery klastry obliczeniowe, każda z własną pamięcią. Chociaż dokładne szczegóły są wciąż w tajemnicy, Teig powiedział, że klastry te znacznie różnią się od wszystkiego, co można dotychczas znaleźć w innych akceleratorach AI, które zwykle używają tablic jednostek wielokrotnej akumulacji (MAC) do obliczania iloczynu wektorów i macierzy.

    Start-up z nowatorskim podejściem do AI i układami o niskim poborze mocy
    ”My nie robimy tego w ten sposób. (...) Nie mamy szeregu bloków MAC w układzie. W rezultacie tego jesteśmy od 20 do 100 razy bardziej energooszczędni w porównaniu do czegokolwiek innego, co obecne jest na rynku, ponieważ wszyscy inni robią to tak samo, a my nie. Nasza reprezentacja sieci jest zupełnie nowa i właśnie to pozwoliło nam osiągnąć tak wysoką sprawność. To, plus technologia uczenia maszynowego, która jest w stanie znaleźć taką reprezentację sieci i przeszkolić sieci w taki sposób, aby były kompatybilne z tym, co chce zobaczyć układ” - opowiada Teig.

    Obraz i dźwięk

    Ergo może obsługiwać dwie kamery i zawiera w sobie procesor obrazu, który działa, jako procesor wstępny, obsługujący takie operacje, jak odwzorowywanie zdjęć z obiektywem typu rybie oko, korekcja gamma, balans bieli i kadrowanie. „To nie jest wymyślne działanie, ale wstępne przetwarzanie, które oczywiście jest przydatne w sprzęcie” - powiedział Teig - „Mamy też ekwiwalent audio - możemy na przykład wykorzystywać wiele mikrofonów stereo i formować wiązkę kierunkową”.

    Istnieje również mikroprocesor ARC Synopsys z blokiem DSP, który można również wykorzystać do wstępnego przetwarzania, a także blok bezpieczeństwa, również od Synopsys. „Jedną z rzeczy, które zrobiliśmy, jest zaszyfrowanie absolutnie wszystkiego, aby utrzymać poziom bezpieczeństwa w ustawieniach IoT. Szyfrujemy sieci, szyfrujemy kod działający na mikroprocesorze, szyfrujemy interfejsy, szyfrujemy wszystko” - dodaje Teig.

    Układ ma odpowiednie wejścia i wyjścia dla czujników poza obrazem i dźwiękiem, a także obsługuje zewnętrzną pamięć Flash i/lub mikroprocesor, który umożliwia bezprzewodowe aktualizacje. Może to być wykorzystane do aktualizacji sieci neuronowych załadowanych na chipie lub załadowania do niego różnych sieci, zgodnie z aktualnymi wymaganiami.

    Ergo dostępny jest już jako próbki układów wraz z towarzyszącą im płytką referencyjną. Produkcja masowa układu jest spodziewana w drugim kwartale bieżącego roku.

    Źródło: https://www.eetimes.com/startup-reinvents-neural-network-maths-launches-20mw-edge-ai-chip/

    Fajne! Ranking DIY
    Darmowe szkolenie: Ethernet w przemyśle dziś i jutro. Zarejestruj się za darmo.
    O autorze
    ghost666
    Tłumacz Redaktor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 napisał 9741 postów o ocenie 7911, pomógł 157 razy. Mieszka w mieście Warszawa. Jest z nami od 2003 roku.
  • OptexOptex
  • #2
    rafels
    Poziom 23  
    Bardzo ciekawie to brzmi, ciekawe czy w rzeczywistości jest tak nowatorskie. Wygląda to trochę, że opracowali metody kompresji istniejących modeli NN i uruchamiania ich na mniejszych zasobach sprzętowych. Piszą też o innym sposobie liczenia wyniku niż klasyczne mnożenie macierzy. Ciekawe czy efekty działania takiej sieci będą dokładnie takie same jak odpowiednika uruchomionego klasycznie. Trzeba poczekać na dalsze informacje.
  • OptexOptex
  • #3
    kloszi
    Poziom 20  
    Moim zdaniem podeszli do tego analogowo i dlatego udało im się opakować to wszystko. Jeden neuron to tranzystor a wagi to wartość rezystorów podłączonych do jego bazy. Przez takie podejście moża naprawdę dużo uzyskać...
  • #4
    ghost666
    Tłumacz Redaktor
    kloszi napisał:
    Moim zdaniem podeszli do tego analogowo i dlatego udało im się opakować to wszystko. Jeden neuron to tranzystor a wagi to wartość rezystorów podłączonych do jego bazy. Przez takie podejście moża naprawdę dużo uzyskać...


    Chyba ciężko byłoby w ten sposób stworzyć cokolwiek programowalnego...