Czy nota katalogowa w obcym języku stanowi problem w 2026 roku? Dzisiaj sprawdzę, czy sztuczna inteligencja jest w stanie zastąpić tłumacza i przełożyć na angielski napisy ze specyfikacji części elektronicznych. Co ważne, cały eksperyment opierać się będzie o zrzuty ekranu (bitmapy), a nie o pliki PDF, więc AI nie będzie miało jak sobie ułatwić pracy. Czy taka forma tłumaczeń specyfikacji się na coś może przydać? Sprawdźmy!
Metodologia testów będzie bardzo prosta - biorę zrzut ekranu z noty katalogowej i próbuję tłumaczyć ją na angielski poprzez wysłanie jej jako załącznik z promptem do AI. Do uruchamiania modeli AI użyję darmowej witryny LMArena:
https://lmarena.ai/
Po testach spróbuję subiektywnie ocenić i pogrupować modele wedle ich rezultatów.
UWAGA - obrazki umieściłem tak jak wygenerowało AI. Jeśli coś jest przycięte, to znaczy, że taką bitmapę utworzył model.
Próba 1 - stałoprądowy kontroler LED
Dane wejściowe:
translate to english
seedream-4-high-res-fal
Tak wielka halucynacja raczej wyklucza ten model.
reve-v1.1-fast
Brak tłumaczeń.
reve-v1.1
Duża zbędna przeróbka dokumentu, szczątkowe tłumaczenia.
chatgpt-image-latest (20251216)
Nieco lepiej, sporadyczne literówki. Prawie użyteczne.
gpt-image-1.5
Nieco lepiej, sporadyczne literówki. Prawie użyteczne.
flux-1-kontext-pro
Brak tłumaczeń.
flux-2-flex
Praktycznie brak tłumaczeń, za wyjątkiem tytułu nad dokumentem.
flux-2-flex-20251231
Niepowodzenie tłumaczenia - losowe literki i znaczki, w większości brak tłumaczeń.
qwen-image-edit
Ten model halucynuje sobie dziwne tło i jest w stanie zepsuć dokument. Bezużyteczne.
flux-2-max
Szczątkowe tłumaczenia, większość to bezsensowny ciąg liter. Nagłówek się przetłumaczył.
flux-2-pro
Nonsensowne ciągi liter, bezużyteczny wynik.
flux-2-pro-20251231
Nonsensowne ciągi liter, bezużyteczny wynik.
gemini-2.5-flash-image-preview (nano-banana)
O dziwo starszy Banana nie chciał nic przetłumaczyć.
gemini-3-pro-image-preview (nano-banana-pro)
Najlepszy wynik do tej pory. Tekst prawie cały poprawny, sporadyczne błędy i literówki, dopiero w akapitach niektóre słowa są bzdurne.
Próba 2 - kontroler wyświetlacza
translate to english
gpt-image-1-mini
Model przerobił obrazek, zmienił nazwę układu, nie przetłumaczył.
gemini-2.5-flash-image-preview (nano-banana)
Starszy Banana nie poradził sobie z tłumaczeniem.
flux-2-pro
Model podjął próby tłumaczenia ale rezultat jest nieczytelny, praktycznie tylko tytuł jest pomocny - LED Driver/Keyboard Scan.
flux-2-pro-20251231
Podstawowe słowa kluczowe Flux 2 odszyfrował, ale reszta jest bezużyteczna.
flux-1-kontext-pro
Ten model nałożył napis translate to English na obraz.
flux-2-flex-20251231
Szczątkowe tłumaczenia.
gpt-image-1.5
Na pierwszy rzut oka bardzo dobrze, ale wstęp od drugiego/trzeciego zdania się rozsypał.
reve-v1.1
Podstawy przetłumaczył, ale też uszkodził schemat wyprowadzeń.
seedream-4-high-res-fal
Tytuł może i jest przetłumaczony, ale model dodał sobie jakieś dziwne tło.
chatgpt-image-latest (20251216)
Podobnie jak drugi od OpenAI, jest nieźle, tylko wstęp się potem rozsypał. Dodatkowo widzę lekko uszkodzony schemat wyprowadzeń.
gemini-3-pro-image-preview (nano-banana-pro)
Nano Banana Pro znów poradził sobie bardzo dobrze.
Próba 3 - prostownik synchroniczny
Tym razem próba ze zrzutem ekranu:
translate to english
qwen-image-edit
Wynik bezużyteczny.
chatgpt-image-latest (20251216)
Podstawowe tłumaczenie jest, ale z mnóstwem literówek. Synchornous?
gpt-image-1.5
Tak jak poprzedni GPT.
seedream-4-high-res-fal
Ten model znów przerobił tło...
gpt-image-1
Szczątkowe tłumaczenie. Dodatkowo z kolejną próbą otrzymałem dziwnie wykadrowany obrazek.
gpt-image-1-mini
A tu co się stało? Zwarcie? I to pomiędzy dwoma osobnymi schematami... dodatkowo też model przyciął obrazek.
flux-2-flex
Znów szczątkowe tłumaczenie.
gemini-2.5-flash-image-preview (nano-banana)
Brak tłumaczenia.
seedream-4.5
Tym razem wyszło nieco lepiej, ale i tak są braki.
flux-1-kontext-pro
Brak tłumaczenia.
flux-2-pro
Literki zostały zmienione, ale nie mają sensu?
gemini-3-pro-image-preview (nano-banana-pro)
Kolejny sukces Nano Banana Pro.
Końcowy ranking modeli wizyjnych
Wykonałem dodatkowe testy, ale nie umieszczałem już kolejnych obrazków w temacie, bo treść z kilkoma takimi samymi bzdurnymi grafikami byłaby nieczytelna. Ostatecznie modele pogrupowałem wedle ogólnych moich odczuć, choć zauważyłem, że sporadycznie dany model może poradzić sobie lepiej lub gorzej - pewnie generacja ma jakiś czynnik losowości (ziarno - tzw. seed).
Prawie dobre tłumaczenia, sporadyczne błędy:
- gemini-3-pro-image-preview (nano-banana-pro)
Prawie akceptowalne tłumaczenia, ale problemy z niektórymi słowami, rozmycie liter:
- chatgpt-image-latest (20251216)
- gpt-image-1.5
Czasami coś tłumaczy, czasami halucynuje i tworzy nonsens:
- reve-v1.1
- gpt-image-1
Szczątkowe próby tłumaczeń, bezsensowny skład liter:
- flux-2-max
- flux-2-pro
- flux-2-pro-20251231
Coś próbuje tłumaczyć, ale halucynuje i przerabia obrazki:
- seedream-4-high-res-fal
Potrafi popsuć obraz:
- qwen-image-edit
Podsumowując, jedynie najnowszy Nano Banana Pro zdaje się dawać akceptowalne rezultaty w kontekście tłumaczenia zdjęć z not katalogowych, choć i tak zdarzają mu się artefakty. Tuż za nim jest jeszcze GPT-Image 1.5 i ChatGPT-Image (20251216), ale mu nie dorównuje. Reszta modeli jest bezużyteczna, choć część z nich próbuje przerabiać obraz, a część całkowicie ignoruje tekst.
Wygląda na to, że nie zostało dużo do zrobienia z AI w tym kontekście. Wydaje mi się, że już w 2026 roku pojawią się znacznie lepsze modele, które jeszcze lepiej będą radzić sobie z takimi tłumaczeniami, a nawet jeśli nie, to Nano Banana Pro i tak jest zadowalający.
Czy widzicie zastosowanie dla sztucznej inteligencji w roli tłumacza obrazów? A może znacie inne praktyczne zastosowania Nano Banana Pro i podobnych modeli?
Fajne? Ranking DIY Pomogłem? Kup mi kawę.