logo elektroda
logo elektroda
X
logo elektroda

Minitest: wzrok robota? Multimodalne AI LLaVA i analiza zdjęć z warsztatu - 100% lokalnie

p.kaczmarek2  10 2733 Fajne? (+8)
📢 Słuchaj (AI):
Strona główna projektu LLaVA z logo i informacjami.
Przetestuję tutaj w praktyce zdolność analizowania zdjęć przez model AI LLaVA który udało mi się uruchomić lokalnie na moim komputerze. Sprawdzę, jak bardzo jest ten model zaawansowany i jak dobrze radzi sobie z opisywaniem zdjęć z warsztatu, przy okazji też sprawdzę, czy jest w stanie odczytać tekst ze zdjęć.
Czym jest LLaVA?
LLaVA stanowi skrót od "Large Language and Vision Assistant", czyli w wolnym tłumaczeniu to jest duży model językowo-wizyjny, czyli potrafiący odpowiadać zarówno na tekst, jak i na obrazy. Upraszczając jeszcze bardziej - to jest taki ChatGPT, tylko że też do uruchomienia u nas lokalnie na komputerze.
Jak uruchomić LLaVA?
Odsyłam tutaj do poprzedniego tematu z serii: ChatGPT lokalnie? Asystenci AI/LLM do uruchomienia na Twoim komputerze - pobranie i instalacja
LLaVA można pobrać poprzez wspomniane w poprzednim temacie WebUI postawione lokalnie na Dockerze, ale zainteresowani mogą też zobaczyć stronę domową projektu:
https://llava-vl.github.io/
Autorzy projektu obiecują dość dobre rezultaty, ale oczywiście nie mamy pewności, czy przykłady z ich strony nie zostały dobrane tak by były jak najbardziej efektowne (tzw. cherry-picking):
Zrzuty ekranu z analizy obrazów przez różne modele AI.
Z tego powodu uruchomiłem ten model lokalnie i przetestowałem go dla Was z różnymi zdjęciami.

A więc zaczynamy. Format testów będzie prosty
- najpierw słowny opis jakie zdjęcie umieściłem
- potem zrzut ekranu z rozmowy z LLaVA
- a potem osobno plusy i minusy odpowiedzi AI w mojej ocenie
Oto moje testy, kolejność przypadkowa.

Zdjęcie wnętrza suszarki
Element grzejny suszarki umieszczony na drewnianej powierzchni z podłączonym przewodem.
+ model rozpoznał, że to element grzejny
+ model rozpoznał, że jest podłączony przewód
- model halucynował, że jest tu jakiś text overlay
- model halucynował, że widzi nogę stołu

Ekran z logiem T9SMAX z Android Boxa
Ekran telewizora z logiem T9SMAX i hasłem reklamowym.
+ model rozpoznał, że to ekran TV
+ model rozpoznał, że jest to napis T9 Max (zgubił S?)

Zdjęcie suszarki:
Suszarka z czarnym kablem na drewnianym tle
+ model rozpoznał, że to suszarka z czarnym kablem

Multimetr:
Multimetr cyfrowy DT832 z kablami pomiarowymi na drewnianym stole.
+ model rozpoznał, że to multimetr wraz z przewodami

Monitor:
Monitor komputerowy na stojaku ustawiony do góry nogami na podłodze wyłożonej płytkami.
+ model rozpoznał, że to monitor
+ model rozpoznał, że monitor jest na boku (zdjęcie?)
- model wyhalucynował, że jest tu myszka i klawiatura...

Atari:
Stara klawiatura Atari 800XL na drewnianym stole.
+ model rozpoznał sprzęt jako wiekową klawiaturę IBM
- model wyhalucynował numeric keypad to the right?

Programator czasowy do gniazdka:
Urządzenie elektroniczne w plastikowym opakowaniu na drewnianym tle.
+ model rozpoznał, że to jakiś programator
+ model rozpoznał, że jest w opakowaniu które nie było otwarte
- model uznał, że to termostat
- model twierdzi, że jest tutaj jakiś kod kreskowy, nie widzę żadnego

Uszkodzony TV (rozbita matryca):
Rozbity ekran telewizora LG z kolorowymi liniami.
+ model poznał, że jest to uszkodzony TV, że są widoczne linie, pęknięcia, oraz kolorowe pasy
- model wyhalucynował sobie napis "Your TV has been damaged" - absurd?

Środek smart gniazdka sieciowego:
Gniazdko elektryczne na stole warsztatowym.
+ model rozpoznał, że to urządzenie elektroniczne
- model halucynuje, że to ładowarka, że ma jakieś konektory, itd

Zdjęcie ekranu z logiem MSI:
Logo MSI na ekranie z komunikatem BIOS
+ model poprawnie rozpoznał logo MSI
- ale model też zmyślił sobie jakieś rzekome "raspberry pi" poniżej

Płytka PCB zalana tworzywem:
Zdjęcie przedstawia małą płytkę elektroniczną zanurzoną w płynie, prawdopodobnie płytkę PCB.
+ model rozpoznał, że to jest płytka, oraz że jest zalana

Zapalona LEDówka:
Żarówka świeci na podstawce, leży na drewnianym blacie.
+ model rozpoznał, że to źródło światła
- model źle określił typ lampy oraz zmyślił sobie włącznik
- model zmyślił sobie narzędzia w tle

Flashowanie LEDówki:
Biała żarówka LED z podłączonym układem elektronicznym na drewnianym stole.
+ model poznał, że to "LED bulb"
+ model też poznał, że jest podłączony układ, że to układ DIY, że jest płytka prototypowa


Płytka prototypowa:
Perforowana płytka w kolorze miedzi leżąca na drewnianej powierzchni.
+ model poprawnie poznał co to za płytka i jak jest zbudowana

Zdjęcie wymiana pasty:
Płytka główna komputera z narzędziami na drewnianym stole
+ model dość dokładnie rozpoznał co się tam dzieje, nawet wskazał RAM, itd

Zrzut ekranu z flashera:
Zrzut ekranu z programu komputerowego z listą urządzeń i ich adresów.
+ model rozpoznał, że to zrzut ekranu z software...
- model nazmyślał, że to adresy IP, MAC, itd.

Zdjęcie Sonoff NSPanel z godziną 17:20:
Widok cyfrowego zegara wyświetlającego godzinę i pogodę.
+ model poznał, że pokazywana jest godzina i pogoda
+ model próbował odczytać temperatury i godzinę, ale wyszło średnio (17:09 zamiast 17:20, ale z 23°C trafił)
- model popełnił dużo drobnych błędów co do odczytu liczb

Konsola Playstation:
Konsola PlayStation z jednym czarnym padem leżąca na drewnianym stole.
+ model poznał, że to konsola Playstation z padem
+ model poznał napis SONY
- model wymyślił sobie, że tu niby są dwa kontrolery?

Konwerter RCA na SCART:
Złącze RCA na drewnianym stole.
+ model rozpoznał, że to powiązane z elektroniką...
- oprócz tego totalna porażka, halucynacje o PCB, o IC, o protokołach

Stary router:
Czarny router sieciowy z kilkoma portami LAN i odłączoną anteną leżącą z przodu.
+ model poznał mniej więcej, że to switch, żę ma porty, itd
- model nie zauważył antenki
- model halucynuje, że jest tu jakiś kabel?
- model halucynuje, że jest jakiś napis?

Stary router i ogniwo...
Zdjęcie urządzenia elektronicznego z baterią Ultrafire na wierzchu.
+ jakim cudem AI poznało, że to Ultrafire?
+ AI też próbowało odczytać pojemność, ale pomieszała się ona z typem ogniwa - 1865mAh?
- AI nie podołało określić typu sprzętu na zdjęciu

Stare radio:
Radio vintage na blacie z przyciskami do strojenia i pokrętłem głośności.
+ AI poznało, że to radio
- AI zmyśliło sobie jakiś wyświetlacz cyfrowy

Układ w obudowie SOIC:
Zdjęcie układu scalonego z napisem Winbond na drewnianej powierzchni.
+ AI poznało, że to IC i odczytało "Winbond" jako "Winebond"
- więc jednak jedną literówkę zrobiło

Transformator w środku radia:
Otwarte urządzenie elektryczne z metalową skrzynką i przewodami.
+ AI poznało, że to jakieś urządzenie elektryczne, przewody
- niestety też dużo halucynuje, gdzie tu przekaźniki?

Myszka kulkowa bez kulki:
Stara myszka kulkowa z przewodem na drewnianym blacie.
+ AI poznało, że to myszka
- AI poległo na przewodzie myszki (twierdzi, że to niby USB)
- AI poległo, na określeniu typu myszki (twierdzi, że to optyczna)

Głośniki:
Dwa małe żółte głośniki połączone kablami na drewnianej powierzchni.
+ AI poznało poprawnie, że to dwa głośniki na stole

Lampa kempingowa:
Lampa kempingowa w kolorze czarno-zielonym na drewnianym tle.
- totalna herezja, gdzie tu elektronarzędzie?

Listwa LDNIO:
Listwa zasilająca z dwoma gniazdami elektrycznymi i logiem LDNIO.
+ AI poznało, że to listwa elektryczna
+ AI odczytało logo LDNIO jako LONIO (mała literówka)
- AI jednak się myli co do ilości portów

Tester ESR70 z kondensatorem:
Tester ESR70 pokazuje pomiar 2.8 oma podłączony do kondensatora.
+ AI poznało, że to jakiś pomiar...
- niestety AI uznało, że to oscyloskop
+ AI odczytało prawie dobrze 2.8 omy z wyświetlacza, ale zrobilo z tego 2.9 kHz

Panel sufitowy LED:
Kwadratowy panel świetlny leżący na powierzchni.
+ AI poprawnie rozpoznało, że to kwadratowy panel LED
+ AI poznało nawet, że panel jest nowy, w opakowaniu
+ jakimś cudem AI poznało, że to jest w kuchni (po kuchence)

Płytka PCB z wylutowanym elementem:
Zbliżenie na płytkę drukowaną z miejscem na chip.
+ AI poznało, że to PCB, itd
- AI jednak nie poznało, że czegoś brakuje

Odczyt czasu z mojego zegara DIY:
Cyfrowy wyświetlacz pokazujący godzinę 19:54.
+ AI poznało, że to zegar z czasem...
- ale nie odczytało poprawnie czasu, chociaż próbowało, 1 i 5 się zgadza

Wnętrze laptopa:
Rozkręcony laptop bez dysku i RAM.
+ AI poznało, że to rozkręcony laptop
+ AI poznało, że brakuje dysku (nie jest widoczny)
- AI uznało, że napęd płyt to bateria?
- AI tu gdzieś widzi RAM?

Kontroler XBOX:
Czarny kontroler do konsoli Xbox 360 leżący na powierzchni.
+ AI jakimś cudem poznało, że to jest konkretnie kontroler do XBoxa

Wnętrze myszki:
Otwarte wnętrze urządzenia elektronicznego koncentrujące się na mechanizmie myszki komputerowej.
+ AI poznało, że to jest myszka, że jest scroll, itd...
- czemu AI myśli, że ta myszka ma obudowę czerwoną? przez PCB?

Rozbity monitor:
Zniszczony monitor komputerowy z pękniętym ekranem, na stojaku.
+ AI poprawnie poznało, że to rozbity monitor, że ma rozbitą matrycę
- gdzie tu AI widzi wall socket?

Mem z "bezpiecznikami":
Zdjęcie przedstawia żartobliwy schemat wymiany bezpieczników z różnymi przedmiotami zamocowanymi na tablicy.
Cytat:

The image shows a collection of tools and items related to repair or maintenance, arranged on a background that resembles an instruction manual or guide. The title at the top reads "GUIDE TO FUSE REPLACEMENT," suggesting that these tools and parts are used for repairing or replacing fuses in various equipment.


The items included in the display are:



A silver metal fuse, which is typically inserted into a fuse panel to protect the electrical circuit from overload.

Screwdrivers of different sizes, which would be used to remove and replace fuses without damaging the surrounding components.

A small bottle or container with a label that says "500ml," though it's unclear what it contains.

A small metal object that could possibly be a clip or a tool part.

An automotive fuse puller, which is used to extract the fuse from its socket without breaking the circuit.

A plastic tool with an angled head and a notch for gripping the fuse holder in place while removing the fuse.

A small metal clip, which might be a retention clip for holding the fuse in the socket.

A plastic tool designed to press down on the fuse holder to secure the fuse in place after it has been removed from the socket.

An electrical test light, which can be used to visually check if an electrical circuit is open or closed by identifying the illumination of the light bulb when the probe is clipped to the circuit.

A small metal object that appears to be a pin or a clip with a notch on one end, possibly for holding components together.

An electronic component resembling an integrated circuit (IC), which could be used in fuse replacement for controlling electrical circuits within a device.


The items are neatly organized and labeled, indicating that this might be part of an educational display or a DIY repair guide.

+ AI przeczytało napis na górze obrazu
- AI nie zrozumiało, że to żart...

Zdemontowana myszka:
Rozłożona komputerowa myszka na stole z widocznymi częściami wewnętrznymi.
+ AI poznało, że to jest myszka w częściach

Długość śrubokręta (zdjęcie z sieci):
Zdjęcie śrubokręta z zaznaczonymi wymiarami.
Zrzut ekranu z rozmowy dotyczącej długości śrubokręta.
+ AI jakoś poznało, że długość całości to 10 cali...

Trzy śrubokręty:
Trzy niebieskie śrubokręty z czarnymi uchwytami.
+ AI poznało, że to trzy śrubokręty...

Grafika młotek:
Zdjęcie przedstawia młotek pazurkowy z metalową główką i czarno-czerwoną rączką.
+ AI poznało, że to młotek

Grafika pomiar:
Cyfrowy wyświetlacz urządzenia pomiarowego z oznaczeniem Accuenergy.
+ AI coś tam spróbowało odczytać, z "500" się w miarę udało
- większość jest odczytana niepoprawnie

Walkman:
Zdjęcie otwartego urządzenia elektronicznego leżącego na drewnianym stole.
- porażka, AI uznało, że to laptop

A może bez otwierania?
Przenośne urządzenie audio leży na drewnianej powierzchni.
+ AI rozpoznało, że to audio recorder bądź radio
- AI uznało, że jest tutaj widoczny LCD...

Mój zegar BK7231:
Elektroniczne urządzenie z wyświetlaczem LED i okablowaniem.
+ AI prawie odczytało ABCDE, ale przeczytało to jako ABODE, C się zlało z D

Mój zegar wyświetlający 20:36:
Cyfrowy zegar z czerwonym podświetleniem pokazujący godzinę 20:36.
+ AI odczytało 2:36
- jednak AI zgubiło 0

To teraz odczyt temperatury:
Zdjęcie wyświetlacza LED pokazującego temperaturę 21°C.
+ AI poznało, że tu jest jakaś temperatura...
- ale odczyt to herezja, gdzie tu godzina 21:30? i 12 stopni...

Przewód od myszki:
Zdjęcie pokazuje mysz komputerową z podłączonym niebieskim kablem złącza DE-9.
- raczej porażka, AI na siłę kojarzy USB z myszkami...

Podsumowanie
Muszę przyznać, że jest nieźle, zwłaszcza w porównaniu do tego co było kilka lat temu. Ten model naprawdę potrafi rozpoznawać szeroką gamę przedmiotów i radzi sobie nawet czasem z kilkoma obiektami/sytuacjami w kadrze. Czasem też potrafi odczytać tekst, chociaż często go przekręca. Nie jest tak dobrze, jak w przypadku rozwiązań zamkniętych, ale trzeba pamiętać, że LLaVA jest dostępna do pobrania i może działać na naszej maszynie.
Teraz pojawia się tylko pytanie - do czego to wykorzystać? Może jakiś asystent warsztatowy, chociaż chyba na to za wcześnie? Czekamy na wersję z 2024/2025? Zapraszam do dyskusji.

O autorze
p.kaczmarek2
Inżynier programista z wieloletnim doświadczeniem embedded i full stack developer. Specjalizuje się w: embedded, Full-Stack Developer p.kaczmarek2 napisał 14403 postów o ocenie 12336 , pomógł 650 razy. Jest z nami od 2014 roku.

Komentarze

gulson 07 Kwi 2024 09:42

A gdyby tak zaindeksować wszystkie obrazki na forum i umożliwić szukanie w tych obrazkach? 🤔 Znacznie by ty ułatwiło odnajdywanie informacji. Tylko nadal modele open source nie są idealne, jak widać... [Czytaj dalej]

p.kaczmarek2 07 Kwi 2024 09:56

Pewnie prędzej czy później do tego dojdzie, jak również do asystentów określających wizualnie usterkę i pomagających np. wykonać podstawowe czynności takie jak, nie wiem, wymiana żarówki.. A teraz jeszcze... [Czytaj dalej]

krzbor 08 Kwi 2024 20:44

Wyraźnie widać, że ma problemy ze starszymi urządzeniami/rzeczami. Dla niego złącze RS232 chyba po prostu nie istnieje podobnie jak RCA na SCART, czy walkmen. Prawdopodobnie gdybyśmy osiemnastolatkowi... [Czytaj dalej]

p.kaczmarek2 10 Kwi 2024 18:08

Po prostu nie było RS232 w przykładach uczących więc go nie rozpoznaje. Pamiętaj, że by ten system rozpoznawał RS232 to musi być to w przykładach uczących, oznaczone ręcznie przez ludzi na wielu obrazach. Czemu... [Czytaj dalej]

ChatGPT 11 Kwi 2024 08:19

Ciekawe jak ChatGPT 4.0 by to wszystko rozpoznał. [Czytaj dalej]

p.kaczmarek2 11 Kwi 2024 08:44

@ElektrodaBot co widzisz na zdjęciu? https://obrazki.elektroda.pl/2810756700_1712817834_thumb.jpg [Czytaj dalej]

ElektrodaBot 11 Kwi 2024 08:45

Na zdjęciu widoczna jest część urządzenia elektrycznego lub elektronicznego z logo "A+ TECH", oraz niebieska wtyczka, która wydaje się być złączem przemysłowym lub specjalistycznym. Wtyczka ta... [Czytaj dalej]

p.kaczmarek2 11 Kwi 2024 08:49

@ElektrodaBot co jest zdjęciu? Co oznacza ta grafika? https://obrazki.elektroda.pl/3783272400_1712818150_thumb.jpg [Czytaj dalej]

ElektrodaBot 11 Kwi 2024 08:50

Zdjęcie przedstawia grafikę zatytułowaną "Guide to Fuse Replacement" (Przewodnik wymiany bezpieczników), która na pierwszy rzut oka może wyglądać na instrukcję dotyczącą różnych typów bezpieczników... [Czytaj dalej]

p.kaczmarek2 11 Kwi 2024 09:21

@chatgpt czyli ElektrodaBot (ChatGPT4) wykrył żart, jedynie LLaVa sobie z tym nie poradził. Jak chcesz, to sam możesz wywołać ElektrodaBota, tylko najpierw w treści postu go wywołaj, a potem umieść... [Czytaj dalej]

%}