Minitest: wzrok robota? Multimodalne AI LLaVA i analiza zdjęć z warsztatu - 100% lokalnie
Przetestuję tutaj w praktyce zdolność analizowania zdjęć przez model AI LLaVA który udało mi się uruchomić lokalnie na moim komputerze. Sprawdzę, jak bardzo jest ten model zaawansowany i jak dobrze radzi sobie z opisywaniem zdjęć z warsztatu, przy okazji też sprawdzę, czy jest w stanie odczytać tekst ze zdjęć.
Czym jest LLaVA?
LLaVA stanowi skrót od "Large Language and Vision Assistant", czyli w wolnym tłumaczeniu to jest duży model językowo-wizyjny, czyli potrafiący odpowiadać zarówno na tekst, jak i na obrazy. Upraszczając jeszcze bardziej - to jest taki ChatGPT, tylko że też do uruchomienia u nas lokalnie na komputerze.
Jak uruchomić LLaVA?
Odsyłam tutaj do poprzedniego tematu z serii: ChatGPT lokalnie? Asystenci AI/LLM do uruchomienia na Twoim komputerze - pobranie i instalacja
LLaVA można pobrać poprzez wspomniane w poprzednim temacie WebUI postawione lokalnie na Dockerze, ale zainteresowani mogą też zobaczyć stronę domową projektu:
https://llava-vl.github.io/
Autorzy projektu obiecują dość dobre rezultaty, ale oczywiście nie mamy pewności, czy przykłady z ich strony nie zostały dobrane tak by były jak najbardziej efektowne (tzw. cherry-picking):
Z tego powodu uruchomiłem ten model lokalnie i przetestowałem go dla Was z różnymi zdjęciami.
A więc zaczynamy. Format testów będzie prosty
- najpierw słowny opis jakie zdjęcie umieściłem
- potem zrzut ekranu z rozmowy z LLaVA
- a potem osobno plusy i minusy odpowiedzi AI w mojej ocenie
Oto moje testy, kolejność przypadkowa.
Zdjęcie wnętrza suszarki
+ model rozpoznał, że to element grzejny
+ model rozpoznał, że jest podłączony przewód
- model halucynował, że jest tu jakiś text overlay
- model halucynował, że widzi nogę stołu
Ekran z logiem T9SMAX z Android Boxa
+ model rozpoznał, że to ekran TV
+ model rozpoznał, że jest to napis T9 Max (zgubił S?)
Zdjęcie suszarki:
+ model rozpoznał, że to suszarka z czarnym kablem
Multimetr:
+ model rozpoznał, że to multimetr wraz z przewodami
Monitor:
+ model rozpoznał, że to monitor
+ model rozpoznał, że monitor jest na boku (zdjęcie?)
- model wyhalucynował, że jest tu myszka i klawiatura...
Atari:
+ model rozpoznał sprzęt jako wiekową klawiaturę IBM
- model wyhalucynował numeric keypad to the right?
Programator czasowy do gniazdka:
+ model rozpoznał, że to jakiś programator
+ model rozpoznał, że jest w opakowaniu które nie było otwarte
- model uznał, że to termostat
- model twierdzi, że jest tutaj jakiś kod kreskowy, nie widzę żadnego
Uszkodzony TV (rozbita matryca):
+ model poznał, że jest to uszkodzony TV, że są widoczne linie, pęknięcia, oraz kolorowe pasy
- model wyhalucynował sobie napis "Your TV has been damaged" - absurd?
Środek smart gniazdka sieciowego:
+ model rozpoznał, że to urządzenie elektroniczne
- model halucynuje, że to ładowarka, że ma jakieś konektory, itd
Zdjęcie ekranu z logiem MSI:
+ model poprawnie rozpoznał logo MSI
- ale model też zmyślił sobie jakieś rzekome "raspberry pi" poniżej
Płytka PCB zalana tworzywem:
+ model rozpoznał, że to jest płytka, oraz że jest zalana
Zapalona LEDówka:
+ model rozpoznał, że to źródło światła
- model źle określił typ lampy oraz zmyślił sobie włącznik
- model zmyślił sobie narzędzia w tle
Flashowanie LEDówki:
+ model poznał, że to "LED bulb"
+ model też poznał, że jest podłączony układ, że to układ DIY, że jest płytka prototypowa
Płytka prototypowa:
+ model poprawnie poznał co to za płytka i jak jest zbudowana
Zdjęcie wymiana pasty:
+ model dość dokładnie rozpoznał co się tam dzieje, nawet wskazał RAM, itd
Zrzut ekranu z flashera:
+ model rozpoznał, że to zrzut ekranu z software...
- model nazmyślał, że to adresy IP, MAC, itd.
Zdjęcie Sonoff NSPanel z godziną 17:20:
+ model poznał, że pokazywana jest godzina i pogoda
+ model próbował odczytać temperatury i godzinę, ale wyszło średnio (17:09 zamiast 17:20, ale z 23°C trafił)
- model popełnił dużo drobnych błędów co do odczytu liczb
Konsola Playstation:
+ model poznał, że to konsola Playstation z padem
+ model poznał napis SONY
- model wymyślił sobie, że tu niby są dwa kontrolery?
Konwerter RCA na SCART:
+ model rozpoznał, że to powiązane z elektroniką...
- oprócz tego totalna porażka, halucynacje o PCB, o IC, o protokołach
Stary router:
+ model poznał mniej więcej, że to switch, żę ma porty, itd
- model nie zauważył antenki
- model halucynuje, że jest tu jakiś kabel?
- model halucynuje, że jest jakiś napis?
Stary router i ogniwo...
+ jakim cudem AI poznało, że to Ultrafire?
+ AI też próbowało odczytać pojemność, ale pomieszała się ona z typem ogniwa - 1865mAh?
- AI nie podołało określić typu sprzętu na zdjęciu
Stare radio:
+ AI poznało, że to radio
- AI zmyśliło sobie jakiś wyświetlacz cyfrowy
Układ w obudowie SOIC:
+ AI poznało, że to IC i odczytało "Winbond" jako "Winebond"
- więc jednak jedną literówkę zrobiło
Transformator w środku radia:
+ AI poznało, że to jakieś urządzenie elektryczne, przewody
- niestety też dużo halucynuje, gdzie tu przekaźniki?
Myszka kulkowa bez kulki:
+ AI poznało, że to myszka
- AI poległo na przewodzie myszki (twierdzi, że to niby USB)
- AI poległo, na określeniu typu myszki (twierdzi, że to optyczna)
Głośniki:
+ AI poznało poprawnie, że to dwa głośniki na stole
Lampa kempingowa:
- totalna herezja, gdzie tu elektronarzędzie?
Listwa LDNIO:
+ AI poznało, że to listwa elektryczna
+ AI odczytało logo LDNIO jako LONIO (mała literówka)
- AI jednak się myli co do ilości portów
Tester ESR70 z kondensatorem:
+ AI poznało, że to jakiś pomiar...
- niestety AI uznało, że to oscyloskop
+ AI odczytało prawie dobrze 2.8 omy z wyświetlacza, ale zrobilo z tego 2.9 kHz
Panel sufitowy LED:
+ AI poprawnie rozpoznało, że to kwadratowy panel LED
+ AI poznało nawet, że panel jest nowy, w opakowaniu
+ jakimś cudem AI poznało, że to jest w kuchni (po kuchence)
Płytka PCB z wylutowanym elementem:
+ AI poznało, że to PCB, itd
- AI jednak nie poznało, że czegoś brakuje
Odczyt czasu z mojego zegara DIY:
+ AI poznało, że to zegar z czasem...
- ale nie odczytało poprawnie czasu, chociaż próbowało, 1 i 5 się zgadza
Wnętrze laptopa:
+ AI poznało, że to rozkręcony laptop
+ AI poznało, że brakuje dysku (nie jest widoczny)
- AI uznało, że napęd płyt to bateria?
- AI tu gdzieś widzi RAM?
Kontroler XBOX:
+ AI jakimś cudem poznało, że to jest konkretnie kontroler do XBoxa
Wnętrze myszki:
+ AI poznało, że to jest myszka, że jest scroll, itd...
- czemu AI myśli, że ta myszka ma obudowę czerwoną? przez PCB?
Rozbity monitor:
+ AI poprawnie poznało, że to rozbity monitor, że ma rozbitą matrycę
- gdzie tu AI widzi wall socket?
Mem z "bezpiecznikami":
Cytat:
The image shows a collection of tools and items related to repair or maintenance, arranged on a background that resembles an instruction manual or guide. The title at the top reads "GUIDE TO FUSE REPLACEMENT," suggesting that these tools and parts are used for repairing or replacing fuses in various equipment.
The items included in the display are:
A silver metal fuse, which is typically inserted into a fuse panel to protect the electrical circuit from overload.
Screwdrivers of different sizes, which would be used to remove and replace fuses without damaging the surrounding components.
A small bottle or container with a label that says "500ml," though it's unclear what it contains.
A small metal object that could possibly be a clip or a tool part.
An automotive fuse puller, which is used to extract the fuse from its socket without breaking the circuit.
A plastic tool with an angled head and a notch for gripping the fuse holder in place while removing the fuse.
A small metal clip, which might be a retention clip for holding the fuse in the socket.
A plastic tool designed to press down on the fuse holder to secure the fuse in place after it has been removed from the socket.
An electrical test light, which can be used to visually check if an electrical circuit is open or closed by identifying the illumination of the light bulb when the probe is clipped to the circuit.
A small metal object that appears to be a pin or a clip with a notch on one end, possibly for holding components together.
An electronic component resembling an integrated circuit (IC), which could be used in fuse replacement for controlling electrical circuits within a device.
The items are neatly organized and labeled, indicating that this might be part of an educational display or a DIY repair guide.
+ AI przeczytało napis na górze obrazu
- AI nie zrozumiało, że to żart...
Zdemontowana myszka:
+ AI poznało, że to jest myszka w częściach
Długość śrubokręta (zdjęcie z sieci):
+ AI jakoś poznało, że długość całości to 10 cali...
Trzy śrubokręty:
+ AI poznało, że to trzy śrubokręty...
Grafika młotek:
+ AI poznało, że to młotek
Grafika pomiar:
+ AI coś tam spróbowało odczytać, z "500" się w miarę udało
- większość jest odczytana niepoprawnie
Walkman:
- porażka, AI uznało, że to laptop
A może bez otwierania?
+ AI rozpoznało, że to audio recorder bądź radio
- AI uznało, że jest tutaj widoczny LCD...
Mój zegar BK7231:
+ AI prawie odczytało ABCDE, ale przeczytało to jako ABODE, C się zlało z D
Mój zegar wyświetlający 20:36:
+ AI odczytało 2:36
- jednak AI zgubiło 0
To teraz odczyt temperatury:
+ AI poznało, że tu jest jakaś temperatura...
- ale odczyt to herezja, gdzie tu godzina 21:30? i 12 stopni...
Przewód od myszki:
- raczej porażka, AI na siłę kojarzy USB z myszkami...
Podsumowanie
Muszę przyznać, że jest nieźle, zwłaszcza w porównaniu do tego co było kilka lat temu. Ten model naprawdę potrafi rozpoznawać szeroką gamę przedmiotów i radzi sobie nawet czasem z kilkoma obiektami/sytuacjami w kadrze. Czasem też potrafi odczytać tekst, chociaż często go przekręca. Nie jest tak dobrze, jak w przypadku rozwiązań zamkniętych, ale trzeba pamiętać, że LLaVA jest dostępna do pobrania i może działać na naszej maszynie.
Teraz pojawia się tylko pytanie - do czego to wykorzystać? Może jakiś asystent warsztatowy, chociaż chyba na to za wcześnie? Czekamy na wersję z 2024/2025? Zapraszam do dyskusji.
Komentarze
A gdyby tak zaindeksować wszystkie obrazki na forum i umożliwić szukanie w tych obrazkach? 🤔 Znacznie by ty ułatwiło odnajdywanie informacji. Tylko nadal modele open source nie są idealne, jak widać... [Czytaj dalej]
Pewnie prędzej czy później do tego dojdzie, jak również do asystentów określających wizualnie usterkę i pomagających np. wykonać podstawowe czynności takie jak, nie wiem, wymiana żarówki.. A teraz jeszcze... [Czytaj dalej]
Wyraźnie widać, że ma problemy ze starszymi urządzeniami/rzeczami. Dla niego złącze RS232 chyba po prostu nie istnieje podobnie jak RCA na SCART, czy walkmen. Prawdopodobnie gdybyśmy osiemnastolatkowi... [Czytaj dalej]
Po prostu nie było RS232 w przykładach uczących więc go nie rozpoznaje. Pamiętaj, że by ten system rozpoznawał RS232 to musi być to w przykładach uczących, oznaczone ręcznie przez ludzi na wielu obrazach. Czemu... [Czytaj dalej]
Ciekawe jak ChatGPT 4.0 by to wszystko rozpoznał. [Czytaj dalej]
@ElektrodaBot co widzisz na zdjęciu? https://obrazki.elektroda.pl/2810756700_1712817834_thumb.jpg [Czytaj dalej]
Na zdjęciu widoczna jest część urządzenia elektrycznego lub elektronicznego z logo "A+ TECH", oraz niebieska wtyczka, która wydaje się być złączem przemysłowym lub specjalistycznym. Wtyczka ta... [Czytaj dalej]
@ElektrodaBot co jest zdjęciu? Co oznacza ta grafika? https://obrazki.elektroda.pl/3783272400_1712818150_thumb.jpg [Czytaj dalej]
Zdjęcie przedstawia grafikę zatytułowaną "Guide to Fuse Replacement" (Przewodnik wymiany bezpieczników), która na pierwszy rzut oka może wyglądać na instrukcję dotyczącą różnych typów bezpieczników... [Czytaj dalej]
@chatgpt czyli ElektrodaBot (ChatGPT4) wykrył żart, jedynie LLaVa sobie z tym nie poradził. Jak chcesz, to sam możesz wywołać ElektrodaBota, tylko najpierw w treści postu go wywołaj, a potem umieść... [Czytaj dalej]