logo elektroda
logo elektroda
X
logo elektroda
Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Czy matematyka z DSP może pomóc pokonać procesor graficzny pod kątem sztucznej inteligencji?

ghost666 12 Gru 2023 12:00 690 0
  • Czy matematyka z DSP może pomóc pokonać procesor graficzny pod kątem sztucznej inteligencji?
    Startup chipowy Lemurian Labs wynalazł nowy logarytmiczny format liczbowy przeznaczony do przyspieszania sztucznej inteligencji (AI) i buduje układ do jego wykorzystania w obciążeniach AI w centrach danych. „W 2018 roku trenowałem modele do robotyki, a były one częściowo splotowe, częściowo transformatorowe i częściowo oparte na uczeniu ze wzmocnieniem” — wyjaśnia CEO firmy, Jay Dawani (na zdjęciu poniżej, po prawej) w rozmowie z EE Times. „Trenowanie tego na 10 000 GPU Nvidia V100 zajęłoby sześć miesięcy... Modele rosły wykładniczo, ale bardzo niewielu ludzi miało moc obliczeniową, aby nawet spróbować [szkolenia], a sporo koncepcji po prostu porzucano. Próbuję budować dla inżynierów ML, którzy mają świetne pomysły, ale są pozbawieni mocy obliczeniowej”.

    Symulacje pierwszego układu Lemurian, który jeszcze nie został wysłany do produkcji, pokazują, że kombinacja nowego systemu liczbowego i specjalnie zaprojektowanego krzemu przewyższy wydajność H100 od Nvidii na podstawie najnowszych wyników testów MLPerf inference H100. Symulacja układu Lemurian może obsłużyć 17,54 wnioskowania na sekundę na chipie dla wersji MLPerf GPT-J w trybie offline (Nvidia H100 w trybie offline może obsłużyć 13,07 wnioskowań na sekundę). Dawani powiedział, że symulacje Lemurian są prawdopodobnie w granicach 10% prawdziwej wydajności krzemu, ale jego zespół zamierza uzyskać więcej w przyszłości. Optymalizacje oprogramowania mogą poprawić efektywność o kolejne 3-5 razy.

    Logarytmiczny system liczbowy

    „Sekretnym składnikiem” osiągów chipa Lemurian jest nowy format liczbowy opracowany przez firmę, który nazywa PAL (parallel adaptive logarithms). „Jako branża zaczęliśmy pędzić w kierunku kwantyzacji 8-bitowych liczb całkowitych, ponieważ to najbardziej wydajna rzecz, którą posiadamy, z perspektywy sprzętu” — wyjaśnia Dawani. „Żaden inżynier oprogramowania nigdy nie powiedział: Chcę 8-bitowych liczb całkowitych!”. Dla dzisiejszych dużych modeli językowych, precyzja INT8 okazała się niewystarczająca, i branża przeszła na FP8. Jednak Dawani wyjaśnił, że charakterystyka obciążenia pracy AI oznacza, że liczby są często w zakresie subnormalnym — obszarze bliskim zera, gdzie FP8 może reprezentować mniejszą liczbę, więc nie jest tak dokładny. Luka w pokryciu FP8 w zakresie subnormalnym to powód, dla którego wiele schematów treningowych wymaga wyższej precyzji typów danych, takich jak BF16 i FP32.

    Czy matematyka z DSP może pomóc pokonać procesor graficzny pod kątem sztucznej inteligencji?
    Porównanie zakresu różnych formatów liczbowych. 8-bitowy typ danych logarytmicznych Lemuriana, PAL8, ma lepsze pokrycie zakresu subnormalnego niż konfigurowalny format zmiennoprzecinkowy 8 (CFP8), 8-bitowy format całkowitoliczbowy (INT8) i istniejący 8-bitowy system liczbowy logarytmiczny (LNS8).


    Współzałożyciel Lemurian, Vassil Dimitrov, wpadł na pomysł rozszerzenia istniejącego systemu liczbowego logarytmicznego (LNS), stosowanego od dziesięcioleci w procesorach sygnałowych (DSP), poprzez użycie wielu podstaw i wykładników. „Przeplatamy reprezentację wielu wykładników, aby odtworzyć precyzję i zakres liczby zmiennoprzecinkowej” — objaśnia Dawani. „To daje lepsze pokrycie... Naturalnie tworzy profil stożkowy z bardzo wysokimi pasmami precyzji tam, gdzie to się liczy, w zakresie subnormalnym”. Ten pas precyzji można ustawiać tak, aby obejmował wymagany obszar, podobnie jak to ma miejsce w przypadku liczby zmiennoprzecinkowej. Dawani powiedział, że pozwala to na bardziej szczegółową kontrolę nad ustawianiem niż liczba zmiennoprzecinkowa.

    Firma Lemurian opracowała formaty PAL od PAL2 do PAL64, z formatem 14-bitowym porównywalnym do BF16. PAL8 osiąga dodatkowy bit precyzji w zestawieniu z FP8 i ma około 1,2× rozmiaru INT8. Dawani oczekuje, że inne przedsiębiorstwa także będą przyjmować te formaty w przyszłości.

    Czy matematyka z DSP może pomóc pokonać procesor graficzny pod kątem sztucznej inteligencji?
    Jay Dawani
    „Chcę, aby coraz więcej osób korzystało z tego, ponieważ uważam, że nadszedł czas, aby pozbyć się liczby zmiennoprzecinkowej” — powiedział. „[PAL] może być wykorzystany w dowolnym zastosowaniu, w którym obecnie używana jest liczba zmiennoprzecinkowa, od DSP po HPC, a nie tylko w AI, choć to jest naszym obecnym fokusem. Bardziej prawdopodobne jest, że będziemy współpracować z innymi firmami budującymi układy scalone do tych zastosowań, aby pomóc im w przyjęciu naszego formatu”.

    Sumator logarytmiczny

    LNS był długo używany w obciążeniach DSP, gdzie większość operacji to mnożenia, ponieważ upraszcza to wykonanie tego działania. Mnożenie dwóch liczb przedstawionych w LNS to dodawanie tych dwóch logarytmów. Jednak dodawanie dwóch liczb LNS jest trudniejsze. DSP tradycyjnie używał dużych tabel LUT, aby to zrealizować, co, chociaż względnie niewydajne, było wystarczająco dobre, jeśli większość operacji niezbędnych stanowiło mnożenie. W obciążeniach AI mnożenie macierzowe wymaga zarówno mnożenia, jak i akumulacji (dodawania). Częścią tajemnicy Lemurian jest to, że: „rozwiązaliśmy dodawanie logarytmiczne sprzętowo” — wskazał Dawani. „Całkowicie zrezygnowaliśmy z tabel LUT i stworzyliśmy czysty sumator logarytmiczny”, dodał. „Mamy dokładny sumator, który jest o wiele dokładniejszy niż liczba zmiennoprzecinkowa. Wciąż wprowadzamy więcej optymalizacji, aby sprawdzić, czy możemy uczynić go tańszym i szybszym. Jest już ponad dwukrotnie lepszy pod względem PPA [moc, wydajność, powierzchnia] niż FP8”. Startup Lemurian złożył kilka patentów na ten sumator.

    „Świat DSP jest znany z analizy obciążenia i zrozumienia, czego szuka, numerycznie, a następnie wykorzystania tego i wprowadzenia do krzemu” — zakomunikował. „To nie różni się od tego, co robimy — zamiast budować układ scalony, który realizuje tylko jedną rzecz, przyjrzeliśmy się numeryce całego obszaru sieci neuronowej i zbudowaliśmy architekturę specjalną dla tej domeny, która ma odpowiednią elastyczność”.

    Czy matematyka z DSP może pomóc pokonać procesor graficzny pod kątem sztucznej inteligencji?
    Oprogramowanie o wysokim poziomie wizji architektury przepływów danych Lemuriana. Układ jest zaprojektowany wokół logarytmicznego systemu liczbowego firmy.


    Stos oprogramowania

    Skuteczna implementacja formatu PAL potrzebuje zarówno sprzętu, jak i oprogramowania. „Dużo pracy wymagało przemyślenie, jak doprowadzić do tego, aby [sprzęt] stał się łatwiejszym do programowania, ponieważ żadna architektura nie odniesie sukcesu, chyba że można uczynić produktywność inżyniera pierwszą rzeczą, którą przyspieszasz” — objaśnia Dawani. „Wolałbym mieć [okropną] architekturę sprzętową i świetny stos oprogramowania niż odwrotnie”.

    Firma Lemurian zbudowała około 40% swojego kompilatora, zanim zaczęła nawet myśleć o swojej architekturze sprzętowej, jak opowiada Dawani. Obecnie stos oprogramowania startupu jest uruchomiony, a Dawani chce, aby był w pełni otwarty. Dzięki temu użytkownicy mogą pisać własne jądra i fuzje. Stos obejmuje Paladynn, mieszany precyzyjny logarytmiczny kwantyzer Lemuriana, który może mapować zadania zmiennoprzecinkowe i całkowitoliczbowe do formatów PAL, zachowując jednocześnie dokładność. „Wykorzystaliśmy wiele pomysłów, które istniały w wyszukiwaniu architektury neuronowej, i zastosowaliśmy je do kwantyzacji, ponieważ chcemy, aby ta część była łatwa” — oznajmił.

    Dawani powiedział, że podczas gdy konwolucyjne sieci neuronowe są stosunkowo łatwe do kwantyzacji, to transformatory już nie. Są w nich wartości odstające w funkcjach aktywacji, które wymagają większej precyzji, więc prawdopodobnie będą potrzebować bardziej złożonych podejść. Niemniej Dawani dodał, że śledzi wiele badań, które wskazują, że takie sieci nie będą już wykorzystywane, gdy krzem Lemuriana pojawi się finalnie na rynku. Przyszłe obciążenia AI mogą podążać ścieżką wyznaczoną przez Google Gemini i innych, które będą działać przez nieterminową liczbę kroków. To łamie założenia większości stosów sprzętowych i oprogramowania, powiedział. „Jeśli nie wiesz a priori, ile kroków musi wykonać twój model, jak go zaplanujesz i ile obliczeń będziesz do tego potrzebować?” — oznajmił. „To wymaga czegoś bardziej dynamicznego i miało duży wpływ na nasze myślenie”.

    Układ będzie działał jako akcelerator dla centrów danych w wersji o poborze mocy 300 W z 128 GB pamięci HBM3 oferującym 3,5 POPS gęstych obliczeń (rzadkie dodane zostaną później). Ogólnie rzecz biorąc, celem Dawaniego jest zbudowanie układu o lepszej wydajności niż H100 i zrównoważenie go cenowo z poprzednią generacją A100 od Nvidii. Docelowe zastosowania obejmują serwery AI on-premises (w dowolnym sektorze) i niektóre firmy chmur tier 2 lub specjalizowane (ale nie tzw. hiperskalerzy).

    Zespół Lemuriana liczy obecnie 27 osób w USA i Kanadzie. Firma pozyskała niedawno rundę zalążkową o wartości 9 milionów dolarów. Dawani ma nadzieję na opracowanie pierwszego układu Lemuriana w III kwartale 2024 roku. W czasie gdy pierwsza wersja oprogramowania produkcyjnego ma zostać wydana w II kwartale 2024 roku. Obecnie dostępny jest wirtualny zestaw deweloperski dla klientów, którzy chcą przetestować to, co oferować ma startup Lemurian, powiedział Dawani.

    Źródło: https://www.eetimes.com/can-dsp-math-help-beat-the-gpu-for-ai/

    Fajne? Ranking DIY
    O autorze
    ghost666
    Tłumacz Redaktor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    https://twitter.com/Moonstreet_Labs
    ghost666 napisał 11960 postów o ocenie 10197, pomógł 157 razy. Mieszka w mieście Warszawa. Jest z nami od 2003 roku.
REKLAMA