logo elektroda
logo elektroda
X
logo elektroda
Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Nowa architektura sztucznej inteligencji generującej tekst? Gemini Diffusion od Google

p.kaczmarek2 24 Maj 2025 12:34 603 6

TL;DR

  • Google pokazało eksperymentalny model Gemini Diffusion do generowania tekstu, oparty nie na transformerze, lecz na architekturze dyfuzyjnej.
  • Model zaczyna od szumu i etapowo go „odszumia”, podobnie jak Stable Diffusion dla obrazów i wideo, generując cały tekst naraz.
  • W benchmarku CodeHumanEval osiągnął 89,6% wobec 90,2% dla Gemini 2.0 Flash-Lite.
  • Google widzi w nim potencjał do matematyki i programowania, szybszą generację oraz korektę błędów, ale model nie jest jeszcze publicznie dostępny.
Wygenerowane przez model językowy.
📢 Słuchaj (AI):
  • Logo Gemini na czarnym tle z niebieską gwiazdką po lewej stronie.
    Kilka dni temu Google zaprezentowało nowy, eksperymentalny model sztucznej inteligencji - Gemini Diffusion. Model ten jednak znacznie różni się od popularnych GPT i wcale nie bazuje na ogólnoprzyjętej architekturze transformer działającej na zasadzie przewidywania kolejnych słów (dokładniej: tokenów) w tekście. Gemini Diffusion działa w sposób analogiczny do modeli tworzących obrazy i video, przykładowo takich jak popularne Stable Diffusion. Tutaj punktem startowym jest szum a model etapowo dokonuje jego "odszumiania" aż do uzyskania zadowalającego obrazu lub... tekstu. Zdaniem Google ta metoda jest obiecująca i może przynieść dobre rezultaty w przypadku zadań w których ważna jest całościowa analiza kontekstu, przykładowo w zadaniach matematycznych lub programowaniu.



    Dodatkowymi atutami tego podejścia ma być szybkość generacji (tekst się łatwiej tworzy niż piksele) oraz samoczynna korekta błędów (cały tekst generuje się jednocześnie, tak jak obraz, więc może być na bieżąco poprawiany).
    Benchmark z Huggingface:
    CategoryBenchmarkGemini Diffusion (%)Gemini 2.0 Flash-Lite (%)
    CodeLiveCodeBench (v6)30.928.5
    CodeBigCodeBench45.445.8
    CodeLBPP (v2)56.856.0
    CodeSWE-Bench Verified*22.928.5
    CodeHumanEval89.690.2
    CodeMBPP76.075.8
    ScienceGPQA Diamond40.456.5
    MathematicsAIME 202523.320.0
    ReasoningBIG-Bench Extra Hard15.021.0
    MultilingualGlobal MMLU (Lite)69.179.0

    Prezentowany model nie jest jeszcze ogólnodostępny do testów, ale kto wie, może to początek kolejnego kroku w rewolucji AI?

    Źródło: https://blog.google/technology/google-deepmind/gemini-diffusion/

    A jak Wy sądzicie? Czy nowe podejście się przyjmie? Samą metodę generowania obrazów z szumu już poniekąd pokazywałem w temacie o Stable Diffusion, ale nie myślałem, by użyć jej do tekstu zamiast do pikseli...
    Pomogłem? Kup mi kawę.
    O autorze
    p.kaczmarek2
    Moderator Smart Home
    Offline 
    Inżynier programista z wieloletnim doświadczeniem embedded i full stack developer.
    Specjalizuje się w: embedded, Full-Stack Developer
    p.kaczmarek2 napisał 14570 postów o ocenie 12581, pomógł 654 razy. Jest z nami od 2014 roku.
  • #2 21558969
    gulson
    Administrator Systemowy
    Posty: 29340
    Pomógł: 148
    Ocena: 6023
    Jest to petarda, która w zasadzie przeszła bez echa, a chyba to największa innowacja, zerknijmy na komentarze:
    https://news.ycombinator.com/item?id=44057820

    1. Użytkownicy są zaskoczeni szybkością nowego modelu Google'a Gemini Diffusion, który wykorzystuje technologię dyfuzji zamiast tradycyjnego podejścia autoregresyjnego.
    2. Niektórzy uważają że mechanizm uwagi (attention) może nie być tak ważny jak wcześniej sądzono - większość przydatnej wiedzy może być przechowywana w warstwach FFN.
    3. Użytkownicy dyskutują czy słynne stwierdzenie "Attention is all you need" może być błędne w świetle nowych odkryć.
    4. Wielu komentujących zauważa że obecne modele są świetne do nowego kodu i szybkich prototypów, ale mają ograniczenia przy pracy z dużymi istniejącymi bazami kodu.
    5. Użytkownicy wskazują na problem "negatywnej przestrzeni" - modele nie wiedzą czego NIE ma w kodzie, co stanowi istotny sygnał dla doświadczonych programistów.
    6. Niektórzy opisują swoje przepływy pracy gdzie prowadzą rozmowy z modelami jak ze współpracownikami, dzieląc się kontekstem i planując implementację.
    7. Komentujący podkreślają wagę dokumentowania decyzji projektowych i powodów dlaczego określone rozwiązania nie zostały wybrane.
    8. Użytkownicy zauważają że modele dyfuzyjne mogą być lepsze w rozumowaniu i planowaniu dzięki możliwości edycji i braku bias wczesnych tokenów.
    9. Niektórzy spekulują że modele dyfuzyjne mogą lepiej wykorzystywać sprzęt lokalny gdyż są bardziej obliczeniowo intensywne niż ograniczone przepustowością.
    10. Komentujący dyskutują jak modele dyfuzyjne działają na tekście - porównują je do maskowanego modelowania językowego jak w BERT.
    11. Użytkownicy są ciekawi czy można będzie używać modeli dyfuzyjnych z deterministycznymi ziarnami (seeds) dla powtarzalnych wyników.
  • #3 21560034
    lemgo
    Poziom 15  
    Posty: 143
    Ocena: 150
    p.kaczmarek2 napisał:
    na ogólnoprzyjętej architekturze transformer działającej na zasadzie przewidywania kolejnych słów (dokładniej: tokenów) w tekście.


    Czysty transformer już dawno niemodny jest.

    Modele GPT wykorzystują tylko część dekodera oryginalnej architektury transformera (która w klasycznym modelu składa się z części enkodera i dekodera). GPT opiera się na tzw. architekturze "decoder-only"

    W architekturze GPT stosuje się mechanizm self-attention, który pozwala modelowi analizować zależności między słowami niezależnie od ich odległości w tekście.
  • #4 21560156
    p.kaczmarek2
    Moderator Smart Home
    Posty: 14570
    Pomógł: 654
    Ocena: 12581
    @lemgo Generalnie to masz rację, tyle, że z tego co widzę, to ta architektura nazywana jest Decoder-Only Transformers


    gulson napisał:

    2. Niektórzy uważają że mechanizm uwagi (attention) może nie być tak ważny jak wcześniej sądzono - większość przydatnej wiedzy może być przechowywana w warstwach FFN.

    To jest ciekawa kwestia, bo te wszystkie modele AI są w dużym stopniu "czarną skrzynką" i my nie wiemy, jak dokładnie one działają i sobie katalogują rzeczy. Z nieco starszych czasów przypomina mi się ta anegdotka, że model mający rozpoznawać gatunki wilków na zdjęciach "nauczył się" rozpoznawać niektóre gatunki po tym, że.... w tle jest śnieg.

    gulson napisał:

    11. Użytkownicy są ciekawi czy można będzie używać modeli dyfuzyjnych z deterministycznymi ziarnami (seeds) dla powtarzalnych wyników.

    To akurat dość słaby komentarz, rzeczywiście jest w źródłowym materiale, ale raczej wiadomo, że te wszystkie mechanizmy są deterministyczne.
    Pomogłem? Kup mi kawę.
  • #5 21571077
    andrzejlisek
    Poziom 32  
    Posty: 3637
    Pomógł: 82
    Ocena: 707
    Ciekawe, czy w tej nowej technologii dyfuzyjnej, model działa "jak umysł człowieka" podobnie, jak obecne modele, wytwarzające tokeny sekwencyjnie. Pamięć i umysł człowieka jest tworem zawodnym i chyba każdemu zdarza się, że ktoś się pomyli, a dodatkowe pytanie powoduje uświadomienie pomyłki i poprawę. Albo też pytanie otwarte o wylistowanie elementów i w odpowiedzi jeden będzie pominięty. Dodatkowe pytanie o brakujący element sprawi, że nagle przypomni się, że jest jeszcze jeden element. Tak niestety działa człowiek, ale rónież tak samo bywa w obecnych modelach.

    Podam wymyślony przykłady zawodności umysłu człowieka, żeby była jasność, o czym piszę:

    Niepełna informacja i jej uzupełnienie:
    A: Jakie kolory zawiera widmo?
    B: Czerwony, pomarańczowy, zielony, turkusowy, niebieski, fioletowy.
    A: A żółtego nie ma?
    B: Zapomniałem o żółtym, widmo ma kolory Czerwony, żółty, pomarańczowy, zielony, turkusowy, niebieski, fioletowy.

    Pomyłka i jej sprostowanie:
    A: Co to jest Soundies?
    B: Soundies to były pierwsze, kolorowe filmiki muzyczne, nagrywane na taśmie filmowej odtwarzanej w Mills Panoram.
    A: Widziałem kilka takich filmików, ale wszystkie były czarno-białe.
    B: Faktycznie, Soundies były czarno-białe, nie stosowano taśmy kolorowej ze względu na koszty i szybkość produkcji.

    Czy model dyfuzyjny też będzie odwzorowywać działanie ludzkiego umysłu? Ja nie widzę sensu odwzorowywania ludzkiej pamięci przy tworzeniu modelu.
  • #6 21571134
    gulson
    Administrator Systemowy
    Posty: 29340
    Pomógł: 148
    Ocena: 6023
    Masz rację. Ciekawe jest czy naprawdę musimy zmierzać do symulowania pracy mózgu. Lepiej by było coś doskonalszego. Nie mam nic przeciw ludzkiemu mózgowi, ale jednak bywa zawodny...
  • #7 21572663
    Konto nie istnieje
    Poziom 1  
📢 Słuchaj (AI):

Podsumowanie tematu

✨ Google zaprezentowało eksperymentalny model sztucznej inteligencji Gemini Diffusion, który odchodzi od tradycyjnej architektury transformerów stosowanych w modelach GPT. Zamiast sekwencyjnego przewidywania tokenów, Gemini Diffusion wykorzystuje mechanizm dyfuzji, analogiczny do modeli generujących obrazy, takich jak Stable Diffusion. Proces generacji polega na stopniowym "odszumianiu" początkowego szumu aż do uzyskania spójnego tekstu, co według Google może poprawić analizę kontekstu w zadaniach matematycznych i programistycznych. Użytkownicy podkreślają szybkość generacji i potencjalną samokorektę błędów w tekście. Dyskusje wskazują na możliwe zmiany w roli mechanizmu uwagi (attention) w modelach AI, sugerując, że warstwy feed-forward (FFN) mogą przechowywać większość wiedzy. Wątpliwości dotyczą też ograniczeń obecnych modeli w pracy z dużymi bazami kodu oraz problemu "negatywnej przestrzeni" – braku informacji o tym, czego nie ma w danych. Ponadto poruszono kwestie porównania działania modeli AI do ludzkiego umysłu, zwracając uwagę na różnice w mechanizmach pamięci i asocjacji oraz na fakt, że modele AI są deterministyczne, a ich działanie wciąż pozostaje częściowo nieprzejrzyste.
Wygenerowane przez model językowy.
REKLAMA