REKLAMA

Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Jak skonfigurować lokalny model Bielik z Whisperem od Gerganova?

kolor 22 Gru 2024 22:33 1302 1

TL;DR

Łączy lokalny polski model Bielik z Whisperem i talk-llama, tworząc offline’owego asystenta głosowego z odpowiedziami czytanymi przez systemowy TTS.
Konfiguracja opiera się na narzędziach ggerganov w C/C++, plikach .bat i PowerShellu oraz konwersji wyjścia z UTF-8 do ANSI/CP-1250 przed TTS.
Jako zestaw bazowy wskazuje ggml-small.bin dla Whispera i Bielik-11B-v2.3-Instruct.Q4_K_M.gguf, a większy model Whispera może nie nadążać.
Pokazuje też obsługę obrazów w llama.cpp/llava 1.5 i 1.6, z komendą llama-llava-cli.exe do opisu screenshot.bmp po polsku.
Alternatywnie proponuje sherpa-onnx jako silnik mowy, ale ostrzega o błędach dekodowania talk-llama i limicie tekstu sherpa do około 22 kb.

Podsumowanie wygenerowane przez AI na podstawie treści dyskusji.

REKLAMA

Zgłoś naruszenie prawa

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas Preferuj w

📢 Słuchaj (AI):

Autor tematu Pomocny post? (+2)

Post #1
21359382 22 Gru 2024 22:33

Gerganov opracował własną bibliotekę GGML do zastosowań w AI, jego programy napisane w c/c++ zajmują tylko kilka MB co w porównaniu z zajmującymi kilkuset MB
bibliotekami tensorów w pythonie daje nowe możliwości. Wady to nie ma jeszcze wszystkich opcji dostępnych w pythonie i jest niskiego poziomu.

Coś dla wszystkich amatorów AI, własny lokalny polski model Bielik połączony z whisperem produkcji Gereganova (https://github.com/ggerganov).
Można głosem przekazywać polecenia do modelu i odpowiedzi zostaną odczytane w systemowym TTS. Należy wybrać odpowiedni głos w systemie Win.
Odpowiedzi są dostępne w formie pliku tekstowego co można wykorzystać w połączeniu z innymi programami lub przerobić dostępny kod źródłowy w c++
do własnych zastosowań. Whisper rozpoznaje dobrze mowę polską i inne języki. Ma opcję tłumaczenia na angielski.
Polski model językowy może udzielać odpowiedzi również po angielsku. Przed rozpoczęciem konwersacji wskazane jest zdanie " odpowiadaj tylko po polsku".
Idealny darmowy kompan dla pustelników, bez internetu.

Co należy zrobić:
-pobrać model whispera ze strony ---- https://huggingface.co/ggerganov/whisper.cpp/tree/main
- wskazany model to --- ggml-small.bin (większy model może nie nadążać)
-pobrać plik --- talk-llama.exe np. https://github.com/ggerganov/whisper.cpp/releases/download/v1.6.0/whisper-bin-x64.zip
- opis konfiguracji talk-llama.exe tutaj -- opis tutaj --- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama
-pobrać polski model językowy Bielik ze strony https://huggingface.co/speakleash/Bielik-11B-v2.3-Instruct-GGUF/tree/main
- wskazany model Bielik-11B-v2.3-Instruct.Q4_K_M.gguf (może być dowolny model w formacie gguf)
-trzeba pokombinować z ustawieniami syntezatora mowy polskiej w zależności od systemu są inne warunki dostępności do TTS, tutaj
poczytać ---- https://github.com/ggerganov/whisper.cpp/blob/master/examples/talk-llama/speak

- tu dostępne video z autorem i gadającym llamaą --- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama

Jeśli chodzi o generowanie polskiej mowy talk-llama.exe w systemowym win TTS to występuje błędna wymowa polskich znaków.
LLama generuje tekstowy plik wyjściowy w formacie UTF8, a systemowy TTS wymaga ANSI/CP-1250.
Trzeba skonwertować tekst przed wysłaniem do TTS na ANSI/CP-1250, załączam program konwersjaUTF8do1250v2.exe,
który tego dokonuje, trzeba go dodać w pliku .bat przed wywołaniem TTS.
Powstają dwa pliki tekstowe mowa2.txt jest oryginalny, a mowa3.txt skonwertowany i ten należy wysłać do TTS.
Te porady dotyczą tylko systemu win.
Mowę polską zainicjować zdaniem "odpowiadaj tylko po polsku".
Dołączam program i moje pliki konfiguracyjne w załączniku.
Przy dekodowaniu i tokenizacji mogą pojawić się błędy dlatego program talk-llama.exe z parametrami można umieścić w pętli w pliku bat
( :start program goto start ), aby zrestartować automatycznie.

Błąd dekodowania pojawia się w kodzie źródłowym talk-llama.cpp w linii ok. 706, po przefiltrowaniu tekstu w bibliotece regex.
podczas generowaniu tekstu przez model bielika.
Może to być jakiś bag, ktoś może spróbuje poprawić kod źródłowy?

Powyższe propozycje zastosowań programów G.Gerganova można uzupełnić o możliwość identyfikacji obrazów, zdjęć i wykonywania opisów ich zawartości.
Co może przydać się np. w analizie zdjęć z monitoringu lub aplikacji dla niewidomych.
Co należy zrobić:
-ściągamy paczkę w zależności od systemu i możliwości komputera z adresu == https://github.com/ggerganov/llama.cpp/releases
-ściagamy modele dla wersji llava 1.5 ==https://huggingface.co/mys/ggml_llava-v1.5-7b/blob/main/mmproj-model-f16.gguf
i https://huggingface.co/mys/ggml_llava-v1.5-7b/blob/main/ggml-model-q5_k.gguf

-dla wersji llava 1.6 == https://huggingface.co/cmp-nct/llava-1.6-gguf/blob/main/vicuna-13b-q5_k.gguf
i https://huggingface.co/cmp-nct/llava-1.6-gguf/blob/main/vicuna-13b-q6_k.gguf

-z pobranej paczki uruchamiamy program z parametrami np.
llama-llava-cli.exe -m models/ggml-model-q5_k.gguf --mmproj models/mmproj-model-f16.gguf --temp 0.1 -ngl 66 -p "describe the image in detail, colors in detail, answer in Polish " --image "screenshot.bmp" --log-colors --log-file log.txt

- opis autora na stronie == https://github.com/ggerganov/llama.cpp/tree/master/examples/llava
-przy odpowiedniej mocy obliczeniowej można zbudować jak z klocków widzącego i słyszącego osobnika AI.

Alternatywny sposób generowania mowy dla talk-llama.exe to chińska sherpa-onnx (https://github.com/k2-fsa/sherpa-onnx).
Można wypróbować, jest demo online --- https://huggingface.co/spaces/willwade/sherpa-onnx-tts.
Co należy zrobić:
-pobrać program konsolowy sherpa-onnx-offline-tts-play.exe ---- https://github.com/k2-fsa/sherpa-onnx/release...4/sherpa-onnx-v1.10.34-win-x64-shared.tar.bz2 (są też dema okienkowe).
-pobrać dowolny model ze strony:
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-mimic3-pl_PL-m-ailabs_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-pl_PL-darkman-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...-models/vits-piper-pl_PL-gosia-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-mimic3-pl_PL-m-ailabs_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...d/tts-models/vits-coqui-pl-mai_female.tar.bz2
-skonfigurować sherpa/vits , whispera i llama/bielik za pomocą plików konsoli .bat i PowerShella .ps.
- moje pliki w załączniku
-maksymalny rozmiar tekstu dla sherpa uruchamianego osobno to ok. 22kb, tekst dostarczony poprzez $string Powershela może być krótszy?.

Załączniki:

uruchamiaczSherpaLlama.rar (236.41 KB) Musisz być zalogowany, aby pobrać ten załącznik.

whisper_tts.rar (236.78 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Fajne? Ranking DIY
O autorze
kolor kolor

Poziom 13
Offline

Dołączył: 13 Kwi 2003

Posty: 74

Pomógł: 1

Ocena postów: 27

Punkty: 922
kolor napisał 74 postów o ocenie 27, pomógł 1 razy. Jest z nami od 2003 roku.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
REKLAMA
#2 21359417 22 Gru 2024 22:59

gulson gulson

Administrator Systemowy

Posty: 29411

Pomógł: 150

Ocena: 6076
Pomocny post? (+1)

Post #2
21359417 22 Gru 2024 22:59

Dzięki za newsa, przez ten zgiełk świąteczny nie napisałem o coraz większej ilości integracji, fajnie, że od razu piszesz o naszym Bieliku.
Na przykład Llama.cpp od Georgi Gerganov wspiera od kilku dni model wizji Qwen2-VL

+200 punktów dla Ciebie za Newsa.

Promuję tematy:
21.06.2026 Zegar NTP na Waveshare ESP32-S3 4.2" RLCD - open source z RTC, MP3, WWW i oszczędzaniem energii
21.04.2026 ChatGPT Images 2.0 - potrafi tworzyć nawet całe czasopisma
19.02.2026 OpenClaw w robotyce czyli czas autonomicznych robotów - wizja przyszłości SkyNetu w formie felietonu
19.02.2026 Humanoidalne roboty z okazji Nowego Roku Chińskiego a niepokój o przyszłość.
13.02.2026 GPT-5.3 Codex i Opus 4.6 – wpływ nowych modeli AI na rynek pracy i automatyzację
Zarejestruj konto, Zaloguj się i bądź aktywny na forum, a wtedy reklamy nie będą się pojawiać. Dołącz do dyskusji i otrzymaj punkty za rejestrację oraz odpowiedzi.

Zainstaluj aplikację Elektroda

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas Preferuj w

📢 Słuchaj (AI):

Zgłoś naruszenie prawa

Strona Główna
/
Forum
/
Artykuły
/
Newsy
/
Jak skonfigurować lokalny model Bielik z Whisperem od Gerganova?

Prezent dla wnuczka, czyli miernik "na bajerze", (chociaż wcale nie taki najgorszy).
29 Cze 2026 18:08 (21)
Jak w tytule — wnuczek osiągnął wiek „skuterowy” i od jakiegoś czasu wszystkie wolne chwile spędza z głową w silniku i jego osprzęcie. Pomyślałem, że jeśli już lubi i chce, niech przynajmniej ma czym… I powstał pomysł na prezent w postaci miernika z obrazka powyżej. Szukałem czegoś bardziej „młodzieżowego”, a przy tym mającego jako-takie parametry. Wybrałem Aneng 626, którego producent dodatkowo nazwał... [Czytaj dalej]
Jak radzicie sobie z upałami? Wnioski z użytkowania przenośnej klimatyzacji po 3 latach
28 Cze 2026 09:22 (40)
Przedstawię tutaj moje trzyletnie doświadczenia i wnioski z użytkowania przenośnego klimatyzatora HAXON MEVA 2.34 kW. Przeznaczony jest on do pracy w pomieszczeniach o powierzchni do 25m² i posiada jedną rurę wypustową, do wyrzucania gorącego powietrza. Sam rękaw uszczelniający na okno należy oczywiście dokupić osobno. Sprawdzę tu jego działalnie, opłacalność oraz pokażę efekty na termowizji. Motywacja... [Czytaj dalej]
Miernik czy pęseta? LCR-ST1 Kolejny produkt z oferty Fnirsi. Pierwsze wrażenia.
26 Cze 2026 19:14 (25)
Tym razem coś, co nabyłem w nadziei, że pomoże mi w pomiarach — nie tylko elementów na płycie, ale i takich z serii „przydasiów”, które nie posiadają czytelnych oznaczeń. Jak zapewne wiecie, mam od jakiegoś czasu coraz większe problemy z mięśniami (atrofia miopatyczna — cokolwiek to znaczy). Czasem nawet podniesienie ręki, by wziąć miernik z półki, jest dla mnie niemożliwe… A że elektronika to obecnie... [Czytaj dalej]
Spacer po Odrach - komputerach zaprojektowanych i zbudowanych w Polsce
24 Cze 2026 20:44 (50)
Odra to nazwa serii polskich komputerów, produkowanych we wrocławskich zakładach elektronicznych Elwro . Kolejne generacje komputerów przeszły od rozwiązań lampowo-tranzystorowych do cyfrowych układów TTL. To musiały być fascynujące wyzwania, projektowania i tworzenia standardów maszyn obliczeniowych. Teoretycznie obecnie wiedziałbym jak zbudować urządzenie cyfrowe z wykorzystaniem tranzystorów, jednak... [Czytaj dalej]
AMD przejmuje MEXT, aby przełamać barierę pamięciową dla AI
24 Cze 2026 14:12 (0)
Bariera pamięciowa jest realnym problemem, a przejęcie przez AMD firmy MEXT – specjalizującej się w technologii przewidywania zapotrzebowania na pamięć – stanowi dowód na to, że skalowanie sztucznej inteligencji w coraz większym stopniu staje się wyzwaniem sprzętowym związanym z pojemnością i szybkością przesyłu danych, a nie tylko z samą mocą obliczeniową układów. AMD, będące wiodącym dostawcą procesorów... [Czytaj dalej]

REKLAMA