Raja Koduri (na zdjęciu po prawej), były główny architekt i wiceprezes w Intelu, wyrażał niedawno publicznie swoje obawy związane z kosztami szkolenia dużych modeli językowych (LLM), które są sercem takich systemów, jak ChatGPT. Z uwagi na te spore nakłady finansowe, tylko ogromne firmy będą mogły mieć, jego zdaniem, możliwość tworzenia ww.
„Jestem bardzo zaniepokojony tym, że kontrola nad generatywną sztuczną inteligencją jest w rękach nielicznych, którzy mogą sobie pozwolić na wydatki skorelowane z trenowaniem i wdrażaniem modeli na dużą skalę” — powiedział Koduri w wywiadzie z EE Times. „Jestem wielkim zwolennikiem demokratyzacji obliczeń. Te o egzaskalowej mocy muszą być dostępne dla każdego człowieka i jego urządzeń”.
Dyrektor generalny OpenAI, Sam Altman, wskazał, że koszt szkolenia GPT-4, następnej generacji modelu, na którym opiera się ChatGPT, przekroczył 100 milionów dolarów, jak podaje w swoim raporcie portal Wired. Wynika z tego, że na świeżym rynku modeli o setkach miliardów parametrów wyłącznie wybrane prywatne firmy posiadają zasoby potrzebne do trenowania takowych od zera. Jednym z kluczowych niebezpieczeństw jest to, że potężne LLM, takie jak GPT, rozwijają się tylko w kierunku, który służy celom komercyjnym tych marek.
Koduri wskazał, że jego nowy startup, zajmujący się generatywną sztuczną inteligencją, zamierza współpracować z przedsiębiorstwem Tenstorrent (gdzie Koduri dołączył do zarządu) oraz resztą ekosystemu RISC-V, aby poradzić sobie z tym problemem.
Modele open-source
Podobnie jak w przypadku innych rodzajów oprogramowania, istnieją zarówno zastrzeżone, jak i otwarte algorytmy AI. Jednak ostatnie trendy branżowe polegają na tym, że wyszkolone modele są udostępniane na zasadach open-source, częściowo po to, aby umożliwić większą demokratyzację technologii. Obejmuje to prace nad GPT, Bloom i innymi. Wśród największych modeli jest HuggingChat firmy HuggingFace z 30 miliardami parametrów: został zaprojektowany jako konkurent dla ChatGPT, chociaż jego licencja nie pozwala na komercyjne wykorzystanie.
Stability AI wydało StableML, LLM typu open-source, którego można używać na szeroką skalę bezpłatnie. Obecnie występuje w wersji z 3 i 7 miliardami parametrów. A według marki docelowa opcja z 15-65 miliardami parametrów jest w drodze. Firma udostępnia swoje modele, aby promować przejrzystość i budować zaufanie, zauważając, że badacze mogą wykorzystywać je do pracy nad identyfikacją potencjalnych zagrożeń i celem pomagania w opracowywaniu zabezpieczeń.
Z kolei Graphcore ma Dolly 2.0, oparte na Eleuther's Pythia, działające na jego sprzęcie IPU. Dolly 2.0 ma 12 miliardów parametrów i jest szkolony na danych zebranych specjalnie do tego zadania przez jego twórcę, firmę Databricks. Został wytrenowany i dostrojony do instrukcji; model, waga i zestaw danych pochodzą z otwartego źródła z licencją zezwalającą na ich użytek komercyjny.
StableLM i Dolly 2.0 są wciąż o jeden do dwóch rzędów wielkości mniejsze niż ChatGPT, który ma 175 miliardach parametrów.
Modele wyszkolone w ramach otwartego pozyskiwania na licencji, która pozwala firmom na ich dopracowanie i spożytkowanie, mogą znacznie przyczynić się do umożliwienia dostępu do tej technologii dla wielu przedsiębiorstw i badaczy. Dostrajanie to proces, w którym już wytrenowane ogólne modele są dalej uczone, aby pomóc w wyspecjalizowaniu ich w określonych ujęciach. To wymaga znacznie mniej zasobów niż ponowne szkolenie od podstaw. „Modele open-source staną się standardem: wszystkie najlepsze na świecie przejdą do open source” — powiedział Anton McGonnell, starszy dyrektor produktu w SambaNova, w wywiadzie dla EE Times. „Naszą tezą jest to, że zwycięzcami są platformy, które będą w stanie obsłużyć złożoność, aby faktycznie móc wydajnie uruchamiać te modele na dużą skalę i mieć prędkość, ponieważ stan techniki zmieni się tak bardzo”. SambaNova wyszkoliła zbiór LLM typu open-source, w tym GPT i Bloom, z różnymi zestawami danych charakterystycznymi dla konkretnej aplikacji, które mają być dostrojone do zastrzeżonych zasobów specyficznych dla zadań klientów.
Zbiory danych typu open source
Firma Cerebras udostępniła serię modeli GPT obejmujących od 111 milionów do 3 miliardów parametrów w ramach liberalnej licencji Apache 2.0. Modele Cerebras-GPT zostały pobrane już ponad 200 000 razy. „Myślę, że jeśli nie będziemy ostrożni, skończymy w sytuacji, w której niewielka garstka podmiotów trzyma klucze do dużych modeli językowych” — oznajmił dyrektor generalny Cerebras, Andrew Feldman (na zdjęciu po lewej), w rozmowie z EE Times, zauważając, że GPT-4 od OpenAI to 'czarna skrzynka', a Llama — wytrenowany model Meta z otwartym kodem źródłowym — nie jest przeznaczony do użytku komercyjnego.
Oprócz zasobów potrzebnych do szkolenia, barierą wejścia jest również dostęp do ogromnych ilości wymaganych zasobów. ChatGPT podbudowano na około 300 miliardach słów tekstu (570 GB danych). LLM typ modelu open-source od Cerebras jest uczony na zestawie The Pile od Eleuther, który sam w sobie również jest opcją o otwartym źródle (StableLM jest trenowany na eksperymentalnym zbiorze danych 'opartym na The Pile', o którym firma planuje powiedzieć więcej szczegółów w przyszłości). Otwarte zestawy danych nie tylko pomagają usunąć barierę wejścia na rynek, ale także umożliwiają analizę zbiorów zasobów pod kątem cech, takich jak stronniczość.
„Istnieje pewien oczyszczający wpływ odnoszący się do otwartej opcji, zarówno na dobre, jak i na złe” — powiedział Feldman. „Co do The Pile można mieć wiele zastrzeżeń, ale jest on otwarty i możemy go dopracować… Można go krytykować i udoskonalać, a jego uprzedzenia kwestionować… Kiedy jest otwarty, może być lepszy; jeśli byłby zamknięty, nie masz pojęcia, skąd pochodzi”. The Pile zawiera dane z książek, artykułów naukowych i medycznych, patentów, Wikipedii, a nawet YouTube. W przyszłości jednak nie wszystkie zasoby będą udostępniane na zasadach open-source.
Feldman był ostrożny, odróżniając zbiory danych z otwartego źródła używane do trenowania podstawowych modeli zrozumienia języka od tych zastrzeżonych przez przedsiębiorstwa, które są spożytkowywane do bardziej specjalistycznych zadań. Podany przez niego przykład — firmy farmaceutyczne wydające miliardy dolarów na generowanie zasobów, które rejestrują odkrycia naukowe — mogą teraz korzystać z jednostek open-source, przeszkolonych na zestawach danych open-source, w połączeniu z własnymi, aby douczyć model rzeczy charakterystycznych dla ich działalności. Jak wskazuje Feldman, w przyszłości to podejście może być często obserwowane.
Różnicowanie
Modele fundamentalne, wytrenowane w ramach otwartego pozyskiwania danych, które umożliwiają przedsiębiorstwom dopracowanie, pozwalają zachować w tajemnicy zastrzeżone zasoby. Dodatkowo daje to szansę na większe zróżnicowanie niż zwykłe użycie API ChatGPT. „Jesteśmy w rozwoju sztucznej inteligencji w momencie porównywalnym do pojawienia się iPhone'a” — powiedział Jensen Huang, dyrektor generalny Nvidii podczas swojego przemówienia na GTC. „Startupy ścigają się, by stworzyć przełomowe produkty i modele biznesowe, podczas gdy marki o ugruntowanej pozycji szukają odpowiedzi. Generatywna AI wywołała w przedsiębiorstwach na całym świecie poczucie natychmiastowej potrzeby opracowania strategii odnoszącej się do sztucznej inteligencji”. To poczucie pilności spowodowało, że wiele podmiotów korzysta z interfejsów API oferowanych przez OpenAI i innych w celu automatyzacji i współtworzenia. Budowanie firmy w oparciu o interfejs API jest ryzykowne, ponieważ często może on być łatwo powielony przez konkurencję.
Huang wskazał podczas swojego przemówienia, że tylko niektórzy klienci muszą dostosowywać modele, Nvidia zbudowała potężne narzędzia dla przedsiębiorstw, aby dopracować te jednostki, które wyszkoliła. „Branża potrzebuje fabryki, takiej jak TSMC dla półprzewodników, dla dużych modeli językowych”. Podstawy sztucznej inteligencji od Nvidia umożliwiają klientom precyzyjne dostrajanie LLM do generowania tekstu, obrazów czy AI do wykrywania leków. Do klientów marki należą Shutterstock i GettyImages, które wykorzystują swoje spore, zastrzeżone bazy zdjęć i metadanych do dostosowywania sztucznej inteligencji celem kreowania obrazów i wideo.
Zastosowanie
Nie tylko szkolenie kosztuje jednakże. Samo wdrożenie na dużą skalę dla sporych LLM również nie jest tanie. Szacunki analityków z SemiAnalysis sugerują, że pojedyncze wnioskowanie z pomocą ChatGPT to wydatek na poziomie 0,36 centa, czyli około 700 000 dolarów dziennie. Szef AI Meta, Yann LeCun (na zdjęciu po lewej), przemawiając w transmitowanej na żywo dyskusji na temat etyki AI, nie martwił się, że LLM trafią tylko w ręce nielicznych. „Myślę, że dość szybko to się zdemokratyzuje” — wskazał, dodając, że prostsze LLM staną się bardziej powszechne — i mogą nawet wylądować na sprzęcie brzegowym, takim jak urządzenia mobilne. LeCun również nie miał wątpliwości, że przyszłością LLM jest open-source. „Będziesz mieć wiele takich LLM lub systemów tego typu, dostępnych z różnymi stopniami otwartości dla grup badawczych lub produktów, w krótkim czasie” — oznajmił. „Jest to konkurencyjne, co oznacza, że ludzie mają dużą motywację do upubliczniania rzeczy, ale niektórzy z nich będą bardziej otwarci niż inni”.
Źródło: https://www.eetimes.com/can-open-source-llms-solve-ais-democratization-problem/
„Jestem bardzo zaniepokojony tym, że kontrola nad generatywną sztuczną inteligencją jest w rękach nielicznych, którzy mogą sobie pozwolić na wydatki skorelowane z trenowaniem i wdrażaniem modeli na dużą skalę” — powiedział Koduri w wywiadzie z EE Times. „Jestem wielkim zwolennikiem demokratyzacji obliczeń. Te o egzaskalowej mocy muszą być dostępne dla każdego człowieka i jego urządzeń”.
Dyrektor generalny OpenAI, Sam Altman, wskazał, że koszt szkolenia GPT-4, następnej generacji modelu, na którym opiera się ChatGPT, przekroczył 100 milionów dolarów, jak podaje w swoim raporcie portal Wired. Wynika z tego, że na świeżym rynku modeli o setkach miliardów parametrów wyłącznie wybrane prywatne firmy posiadają zasoby potrzebne do trenowania takowych od zera. Jednym z kluczowych niebezpieczeństw jest to, że potężne LLM, takie jak GPT, rozwijają się tylko w kierunku, który służy celom komercyjnym tych marek.
Koduri wskazał, że jego nowy startup, zajmujący się generatywną sztuczną inteligencją, zamierza współpracować z przedsiębiorstwem Tenstorrent (gdzie Koduri dołączył do zarządu) oraz resztą ekosystemu RISC-V, aby poradzić sobie z tym problemem.
Modele open-source
Podobnie jak w przypadku innych rodzajów oprogramowania, istnieją zarówno zastrzeżone, jak i otwarte algorytmy AI. Jednak ostatnie trendy branżowe polegają na tym, że wyszkolone modele są udostępniane na zasadach open-source, częściowo po to, aby umożliwić większą demokratyzację technologii. Obejmuje to prace nad GPT, Bloom i innymi. Wśród największych modeli jest HuggingChat firmy HuggingFace z 30 miliardami parametrów: został zaprojektowany jako konkurent dla ChatGPT, chociaż jego licencja nie pozwala na komercyjne wykorzystanie.
Stability AI wydało StableML, LLM typu open-source, którego można używać na szeroką skalę bezpłatnie. Obecnie występuje w wersji z 3 i 7 miliardami parametrów. A według marki docelowa opcja z 15-65 miliardami parametrów jest w drodze. Firma udostępnia swoje modele, aby promować przejrzystość i budować zaufanie, zauważając, że badacze mogą wykorzystywać je do pracy nad identyfikacją potencjalnych zagrożeń i celem pomagania w opracowywaniu zabezpieczeń.
Z kolei Graphcore ma Dolly 2.0, oparte na Eleuther's Pythia, działające na jego sprzęcie IPU. Dolly 2.0 ma 12 miliardów parametrów i jest szkolony na danych zebranych specjalnie do tego zadania przez jego twórcę, firmę Databricks. Został wytrenowany i dostrojony do instrukcji; model, waga i zestaw danych pochodzą z otwartego źródła z licencją zezwalającą na ich użytek komercyjny.
StableLM i Dolly 2.0 są wciąż o jeden do dwóch rzędów wielkości mniejsze niż ChatGPT, który ma 175 miliardach parametrów.
Modele wyszkolone w ramach otwartego pozyskiwania na licencji, która pozwala firmom na ich dopracowanie i spożytkowanie, mogą znacznie przyczynić się do umożliwienia dostępu do tej technologii dla wielu przedsiębiorstw i badaczy. Dostrajanie to proces, w którym już wytrenowane ogólne modele są dalej uczone, aby pomóc w wyspecjalizowaniu ich w określonych ujęciach. To wymaga znacznie mniej zasobów niż ponowne szkolenie od podstaw. „Modele open-source staną się standardem: wszystkie najlepsze na świecie przejdą do open source” — powiedział Anton McGonnell, starszy dyrektor produktu w SambaNova, w wywiadzie dla EE Times. „Naszą tezą jest to, że zwycięzcami są platformy, które będą w stanie obsłużyć złożoność, aby faktycznie móc wydajnie uruchamiać te modele na dużą skalę i mieć prędkość, ponieważ stan techniki zmieni się tak bardzo”. SambaNova wyszkoliła zbiór LLM typu open-source, w tym GPT i Bloom, z różnymi zestawami danych charakterystycznymi dla konkretnej aplikacji, które mają być dostrojone do zastrzeżonych zasobów specyficznych dla zadań klientów.
Zbiory danych typu open source
Firma Cerebras udostępniła serię modeli GPT obejmujących od 111 milionów do 3 miliardów parametrów w ramach liberalnej licencji Apache 2.0. Modele Cerebras-GPT zostały pobrane już ponad 200 000 razy. „Myślę, że jeśli nie będziemy ostrożni, skończymy w sytuacji, w której niewielka garstka podmiotów trzyma klucze do dużych modeli językowych” — oznajmił dyrektor generalny Cerebras, Andrew Feldman (na zdjęciu po lewej), w rozmowie z EE Times, zauważając, że GPT-4 od OpenAI to 'czarna skrzynka', a Llama — wytrenowany model Meta z otwartym kodem źródłowym — nie jest przeznaczony do użytku komercyjnego.
Oprócz zasobów potrzebnych do szkolenia, barierą wejścia jest również dostęp do ogromnych ilości wymaganych zasobów. ChatGPT podbudowano na około 300 miliardach słów tekstu (570 GB danych). LLM typ modelu open-source od Cerebras jest uczony na zestawie The Pile od Eleuther, który sam w sobie również jest opcją o otwartym źródle (StableLM jest trenowany na eksperymentalnym zbiorze danych 'opartym na The Pile', o którym firma planuje powiedzieć więcej szczegółów w przyszłości). Otwarte zestawy danych nie tylko pomagają usunąć barierę wejścia na rynek, ale także umożliwiają analizę zbiorów zasobów pod kątem cech, takich jak stronniczość.
„Istnieje pewien oczyszczający wpływ odnoszący się do otwartej opcji, zarówno na dobre, jak i na złe” — powiedział Feldman. „Co do The Pile można mieć wiele zastrzeżeń, ale jest on otwarty i możemy go dopracować… Można go krytykować i udoskonalać, a jego uprzedzenia kwestionować… Kiedy jest otwarty, może być lepszy; jeśli byłby zamknięty, nie masz pojęcia, skąd pochodzi”. The Pile zawiera dane z książek, artykułów naukowych i medycznych, patentów, Wikipedii, a nawet YouTube. W przyszłości jednak nie wszystkie zasoby będą udostępniane na zasadach open-source.
Feldman był ostrożny, odróżniając zbiory danych z otwartego źródła używane do trenowania podstawowych modeli zrozumienia języka od tych zastrzeżonych przez przedsiębiorstwa, które są spożytkowywane do bardziej specjalistycznych zadań. Podany przez niego przykład — firmy farmaceutyczne wydające miliardy dolarów na generowanie zasobów, które rejestrują odkrycia naukowe — mogą teraz korzystać z jednostek open-source, przeszkolonych na zestawach danych open-source, w połączeniu z własnymi, aby douczyć model rzeczy charakterystycznych dla ich działalności. Jak wskazuje Feldman, w przyszłości to podejście może być często obserwowane.
Różnicowanie
Modele fundamentalne, wytrenowane w ramach otwartego pozyskiwania danych, które umożliwiają przedsiębiorstwom dopracowanie, pozwalają zachować w tajemnicy zastrzeżone zasoby. Dodatkowo daje to szansę na większe zróżnicowanie niż zwykłe użycie API ChatGPT. „Jesteśmy w rozwoju sztucznej inteligencji w momencie porównywalnym do pojawienia się iPhone'a” — powiedział Jensen Huang, dyrektor generalny Nvidii podczas swojego przemówienia na GTC. „Startupy ścigają się, by stworzyć przełomowe produkty i modele biznesowe, podczas gdy marki o ugruntowanej pozycji szukają odpowiedzi. Generatywna AI wywołała w przedsiębiorstwach na całym świecie poczucie natychmiastowej potrzeby opracowania strategii odnoszącej się do sztucznej inteligencji”. To poczucie pilności spowodowało, że wiele podmiotów korzysta z interfejsów API oferowanych przez OpenAI i innych w celu automatyzacji i współtworzenia. Budowanie firmy w oparciu o interfejs API jest ryzykowne, ponieważ często może on być łatwo powielony przez konkurencję.
Huang wskazał podczas swojego przemówienia, że tylko niektórzy klienci muszą dostosowywać modele, Nvidia zbudowała potężne narzędzia dla przedsiębiorstw, aby dopracować te jednostki, które wyszkoliła. „Branża potrzebuje fabryki, takiej jak TSMC dla półprzewodników, dla dużych modeli językowych”. Podstawy sztucznej inteligencji od Nvidia umożliwiają klientom precyzyjne dostrajanie LLM do generowania tekstu, obrazów czy AI do wykrywania leków. Do klientów marki należą Shutterstock i GettyImages, które wykorzystują swoje spore, zastrzeżone bazy zdjęć i metadanych do dostosowywania sztucznej inteligencji celem kreowania obrazów i wideo.
Zastosowanie
Nie tylko szkolenie kosztuje jednakże. Samo wdrożenie na dużą skalę dla sporych LLM również nie jest tanie. Szacunki analityków z SemiAnalysis sugerują, że pojedyncze wnioskowanie z pomocą ChatGPT to wydatek na poziomie 0,36 centa, czyli około 700 000 dolarów dziennie. Szef AI Meta, Yann LeCun (na zdjęciu po lewej), przemawiając w transmitowanej na żywo dyskusji na temat etyki AI, nie martwił się, że LLM trafią tylko w ręce nielicznych. „Myślę, że dość szybko to się zdemokratyzuje” — wskazał, dodając, że prostsze LLM staną się bardziej powszechne — i mogą nawet wylądować na sprzęcie brzegowym, takim jak urządzenia mobilne. LeCun również nie miał wątpliwości, że przyszłością LLM jest open-source. „Będziesz mieć wiele takich LLM lub systemów tego typu, dostępnych z różnymi stopniami otwartości dla grup badawczych lub produktów, w krótkim czasie” — oznajmił. „Jest to konkurencyjne, co oznacza, że ludzie mają dużą motywację do upubliczniania rzeczy, ale niektórzy z nich będą bardziej otwarci niż inni”.
Źródło: https://www.eetimes.com/can-open-source-llms-solve-ais-democratization-problem/
Cool? Ranking DIY