[AI] Generator grafiki i zdjęć na własnym komputerze - interfejs WWW dla Stable Diffusion
TL;DR
- Fooocus to darmowy, otwarty interfejs WWW dla Stable Diffusion XL działający 100% lokalnie na komputerze, służący do generowania i edycji obrazów.
- Obsługuje prompt expansion przez GPT2, upscaling, outpainting, inpainting, variation, image prompt, describe image, negatywny prompt oraz dodatki LoRA i style.
- Na laptopie z Intel Core i7-6700HQ, 64 GB RAM i GeForce GTX 1060 pojedyncza generacja trwała około trzy minuty.
- W testach wychodziły atrakcyjne krajobrazy i postacie, ale też błędy w detalach, artefakty oraz kompletnie zniekształcony tekst w scenach i schematach.
Wygenerowane przez model językowy.
Jak generować obrazki na własnym komputerze? Jak zmienić zawartość zdjęcia? Czy AI jest w stanie zaproponować szkic interfejsu dla kontrolera inteligentnego domu? To tutaj postaram się właśnie sprawdzić, a to wszystko dzięki prostemu w użyciu interfejsowi web bazującemu na architekturze Stable Diffusion XL.
Prezentowany tu Fooocus to całkowicie darmowe, otwarte i działające 100% lokalnie (bez Internetu, na Twoim komputerze) środowisko do tworzenia obrazów za pomocą modelów AI bazujących na Stable Diffusion. Fooocus oferuje m. in:
- generowanie obrazów w oparciu o prompty
- rozwinięcie promptu w oparciu o GPT2
- upscaling obrazu, czyli zwiększenie rozdzielczości
- outpainting, czyli dodawanie części obrazu poza jego ramami
- inpainting, czyli edycja części obrazu
- variation, czyli tworzenie różnych wersji obrazu
- image prompt, czyli promptowanie obrazek
- describe image, czyli opisywanie obrazu do promptu wybranego modelu
- negatywny prompt, czyli to czego nie chcemy mieć na obrazie
- możliwość integracji dodatków LORA, stylów oraz ustawienia ich wag, co daje nam większą kontrolę nad tym co generujemy
Instalacja i uruchomienie
Pobieramy paczkę z repozytorium, wypakowujemy, odpalamy run.bat:
W nowszych wersjach będą też osobno skrypty run_realistic.bat oraz run_anime.bat, działają one analogicznie - po prostu wybierają na starcie styl grafik.
Po chwili w przeglądarce otworzy nam się strona Fooocusa:
Pora zacząć zabawę.
Pierwsze generacje
Na początku muszę ostrzec, że grafiki generują się dość długo. U mnie na Intel (R) Core(TM) i7-6700HQ CPU @ 2.60GHz, 64GB RAM, GeForce GTX 1060 generują się około trzy minuty.
Po prostu wpisujemy prompt i dobieramy opcje. Czasem trzeba się nakombinować by otrzymać pożądany efekt. Dodatkowo użyte słowa kluczowe wpływają na styl całego obrazka, więc ciężko jest zrobić jedną "serię" grafik. Ale spróbujmy, najpierw przykładowe prompty. Wszystko wygenerowane przez mój laptop.
Użyty model: juggernautXL_v8Rundiffusion.safetensors
A cozy cabin in a snowy forest at sunset, warm light glowing from the windows, smoke rising from the chimney
Całkiem nieźle, ale czemu komin się pali?
Futuristic city skyline at night, neon lights reflecting on wet streets, flying cars in the sky
Kolorystyka świetna, ale sens pojazdów i tła szybko się gubi.
Astronaut floating peacefully above Earth, with stars and galaxies in the background, contemplative mood
Znów dziwne detale.
A cat café with cozy decor, wooden furniture, and playful cats lounging around while people sip coffee
Tu znacznie mocniej widać artefakty, często się tak kończy próba generowania sceny z wieloma postaciami.
A cute fox wearing a small backpack, wandering through an autumn forest filled with orange and red leaves
Dość niezłe, tylko zawsze postać jest nieco inna.
A massive floating island with waterfalls cascading into the clouds, bioluminescent plants glowing softly
A colossal mechanical dragon flying over a steampunk city, gears and smoke in the background
Elektronika oczami AI
Z czystej ciekawości - czy AI wie jak wygląda Arduino?
arduino, electronics, table
Coś musiało w danych uczących być, ale i tak wychodzi herezja...
A schematy?
schematic, full bridge rectifier, graetz, electronics
Nie oczekiwałem wiele, ale ta czcionka też jest fajna. Jeszcze ten
"RECCTITICIFER".
Kolejna generacja zrobiła... zdjęcie elementu:
A może AI wygeneruje nam sprzęt retro?
unitra, radio, retro, table, receiver
To może jeszcze jeden dziwny eksperyment...
polish car, fiat 126p, retro, polish city, street
Inpainting
Inpainting pozwala zmodyfikować lub całkiem zmienić część zawartości obrazu. Przykładowo możemy dodać naszemu lisowi towarzysza podróży. W celu użycia inpainting należy włączyć opcję "input image" oraz przeciągnąć tam obraz, który chcemy edytować. Potem zaznaczamy strefy, które poddamy edycji.
Prompt podałem podobny jak wcześniej, tylko że teraz zawierał słowo "owl".
Dwa pierwsze z brzegu rezultaty:
Próby zastosowania w praktyce
Na koniec spróbowałem użyć tego generatora w celu utworzenia szkiców/propozycji różnego rodzaju urządzeń dla "inteligentnego domu", przykładowo może jakiegoś kontrolera nagrzewania, stacji pogodowej czy tam innego typu panelu dotykowego. Wiem, że tekstu te modele nie generują czytelnego, ale może jakiś pomysł mi poddadzą?
smart home, ui, design, chart, heater, interface, screenshot
Z daleka to jeszcze coś przypomina, kolorystyka chyba też ok, ale tekst i szczegóły są całkowicie błędnie narysowane.
Podsumowanie
To była krótka prezentacja pokazująca jakie obrazki można łatwo generować na typowym sprzęcie konsumenckim. Wcale nie okazało się być to takie trudne a i efekty są całkiem niezłe, choć z pewnością opinie będą podzielone. Z ciekawości próbowałem też pogenerować nieco bardziej praktyczne rzeczy, ale pod tym kątem użyty model kuleje więc nie oczekiwałbym od niego dużo.
Ostateczny werdykt zostawię Wam, jedynie tutaj podkreślę, że całość generacji odbywa się 100% lokalnie, jak również jest wysoce konfigurowalna i modyfikowalna, więc może jest warto czym się zainteresować, chociażby z troski o prywatność.
Czy korzystacie z generatorów grafik a jeśli tak to do czego?
Komentarze
Fajna sprawa. Aż sobie jutro przetestuję na "stacjonarce". Szczególnie ciekawie prezentują się te dodatkowe opcje poza zwykłym generowaniem obrazka. Może się człowiek przyzwyczai i sobie będzie życie ułatwiał... [Czytaj dalej]
Na pewno musisz uzbroić się w cierpliwość, bo wygenerowanie dobrej grafiki może zająć nieco więcej prób niż w przypadku gotowych, zamkniętych generatorów które nie są dostępne do pobrania. Na początek... [Czytaj dalej]
Najbardziej podoba mi się plecak w kształcie sowy (coś tutaj poszło nie tak ;) ) i ten kot: https://obrazki.elektroda.pl/7909671700_1742286449_thumb.jpg https://obrazki.elektroda.pl/5886031800_1742286461_thumb.jpg... [Czytaj dalej]
Przed chwilką zainstalowałem sobie fooocusa z domyślymi modelami (w zasadzie to sam zainstalował). Byłem ciekaw najbardziej jaka będzie różnica w czasie generowania pomiędzy laptopową kartą GTX1060 a... [Czytaj dalej]
Typowym przykładem są dłonie (palce) postaci, a jak testowałem, to też przewody sprawiają problemy. Im bardziej złożony koncept tym gorzej, ale też zależy co było w danych uczących. Mnie najbardziej... [Czytaj dalej]
Lol, dobre! Ani Bing ani ChatGPT faktycznie nie potrafią (oba to model DALL E). Nawet po wskazaniu błędu i prośbie o podniesienie poziomu wina o 100%,. Kieliszek zawsze jest napełniony do połowy. [Czytaj dalej]
Podobno ChatGPT 4o ma możliwość generowania prostych szablonów do druku 3D, sprawdzał ktoś jak bardzo to odstaje albo się nadaje? Dajmy na to prosty stand pod telefon... [Czytaj dalej]
Jest takich generatorów trochę, ale nie testowałem, nie mam drukarki :) Np. meshy.ai [Czytaj dalej]
To obrazuje jak duży wpływ mają dane uczące. Manipulując danymi uczącymi, można mocno wpływać na działanie modelu. To nie jest taka "prawdziwa" inteligencja, jak to niektórzy myślą, tylko bardziej model... [Czytaj dalej]
Niestety masz rację, i to jest największe zagrożenie ze strony każdego AI. Jeśli ludzie zaczną bezkrytycznie wierzyć temu co generuje AI, czy jeśli chodzi o informacje czy obrazy, to jest to bardzo prosta... [Czytaj dalej]
Moim zdaniem, dobrym testem tych generatorów są prośby o grafiki techniczne i użytkowe, np. "widmo wysokopreżnej lampy sodowej", "wykres fazowy wody", "wnętrze rezonatora kwarcowego", które można łatwo... [Czytaj dalej]
Brakuje modelu do rysunków technicznych, nie mówiąc o schematach. Jest tutaj spora nisza, ciekawe, czy kiedyś się nad tym pochylą. Chociaż nie będzie łatwo, bo jak stworzyć dane treningowe z schematów... [Czytaj dalej]
Jakby karmić AI opisanymi schematami to być może by coś pojęła. Na ten moment na podstawie zdjęcia potrafi dobrać część do motocykla i nawet określić markę, nie dostrzega co prawda np. różnicy w długości... [Czytaj dalej]
Zabawa w AI na karcie graficznej z VRAM=6GB musiała się tak skończyć :) Na tym sprzęcie odpalasz SD 1.4 albo 1.5 - czyli relatywnie "słabo wyedukowane" modele, sprzed 2-3 lat. SDXL 1.0 już potrzebuje 8GB... [Czytaj dalej]
Popyt na AI definitywnie wpłynął negatywnie na ceny GPU, na czym oczywiście klasycznie tracą gracze. [Czytaj dalej]
Wpływ na to ma wiele czynników, AI jest tylko (albo aż) jednym z nich. Ja osobiście mam pecha, z powodu awarii musiałem kupić grafikę w 2022r. (szczyt kopania kryptowalut + covid) i zamiast rekomendowanych... [Czytaj dalej]
Ja żałuję że nie sprzedałem mojej RTX 3070 w peaku jak używane chodziły po 6-7k, kupiłem ją dosłownie przed wzrostem cen, bo w grudniu 2019 :D Jakbym sprzedał ją wtedy, to teraz pewnie bym miał 4080. ... [Czytaj dalej]
Raczej nie oczekiwałbym prędko dobrego modelu AI do rysunków technicznych/schematów. Tekst jest łatwiej generować, bo wystarczy po kolei przewidywać kolejne tokeny, ale rysunek techniczny? Schemat, taki... [Czytaj dalej]
Żeby nie szukać daleko - model o1 na mój prompt: "Wygeneruj schemat układu elektronicznego, który podłączony do zasilania AC 230V będzie mrugał czerwoną diodą LED w systemie 2 sekundy zapalona, 1 sekunda... [Czytaj dalej]