Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem

kolor 18 Paź 2025 20:30 1359 8

TL;DR

Powstał uruchamiacz UruchamiaczSherpaLlamaMulti.exe w C++, który łączy talk-llama z syntezą mowy i automatycznym doborem języka.
Rozwiązanie używa whisper.cpp do zamiany mowy na tekst, Bielik-11B-v2.6-Instruct.Q2_K.gguf do generowania odpowiedzi oraz sherpa-onnx-offline-tts-play.exe do odczytu.
Konfiguracja obejmuje 8 języków: polski, rosyjski, chiński, włoski, francuski, hiszpański, angielski i niemiecki, a dla CUDA zalecane jest -ngl 16.
Po modyfikacji regex zachowuje polskie i rosyjskie znaki; filtr bywa niedokładny, a krótkie komunikaty mogą zostać odczytane dwa razy.

REKLAMA

Zgłoś naruszenie prawa

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas

📢 Słuchaj (AI):

Autor tematu Pomocny post? (+4)

Post #1
21724287 18 Paź 2025 20:30

Przedstawiam taki projekt programu wykonany w c++, kompilacja w GCC, który nawiązuje do mojego newsa - link: https://www.elektroda.pl/rtvforum/topic4094932.html#21359382.
Związane jest to z pojawieniem się stabilnej wersji whispera autorstwa G.Gerganova ze strony: https://github.com/ggml-org/whisper.cpp/releases/tag/v1.8.2 .
Program "UruchamiaczSherpaLlamaMulti.exe" jest uruchamiaczem programu: sherpa-onnx-offline-tts-play.exe, do generowania tekstu z użyciem modeli vits, oraz filtrem- przełącznikiem,
który wybiera automatycznie syntezę mowy w danym języku linki niżej.

Program po podaniu np. napisz wiersz słońcu po polsku, napisze i wypowie tekst po polsku, a po podaniu: przetłumacz ten wiersz na np. hiszpański przetłumaczy go i lektor hiszpański to odczyta. Oczywiście filtr nie jest idealny, może sie pomylić,bo większość to języki z łacińskimi współnymi rdzeniami.

Ze strony : https://github.com/k2-fsa/sherpa-onnx/releases ściągamy program: sherpa-onnx-offline-tts-play.exe z bibliotekami, są w paczce w linkach poniżej.

Zalecam dla cpu:
https://github.com/k2-fsa/sherpa-onnx/release...4/sherpa-onnx-v1.12.14-win-x64-shared.tar.bz2

Ściągamy modele ze strony : https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models.

https://github.com/k2-fsa/sherpa-onnx/release...-models/vits-piper-ru_RU-denis-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-piper-zh_CN-huayan-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-pl_PL-darkman-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-it_IT-riccardo-x_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...ts-models/vits-piper-fr_FR-gilles-low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-piper-es_ES-davefx-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...s-models/vits-piper-en_GB-alan-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...dels/vits-piper-de_DE-thorsten-medium.tar.bz2

Ściągamy najnowszy model Bielika: speakleash.Bielik-11B-v2.6-Instruct.Q2_K.gguf ze strony : https://huggingface.co/DevQuasar/speakleash.Bielik-11B-v2.6-Instruct-GGUF/tree/main
najmniejszy model aby zmieścić w VRAM :https://huggingface.co/DevQuasar/speakleash.Bielik-11B-v2.6-Instruct-GGUF/blob/main/speakleash.Bielik-11B-v2.6-Instruct.Q2_K.gguf
Większe modele Bielika są tu: https://huggingface.co/speakleash/Bielik-11B-v2.6-Instruct-GGUF/tree/main.
Kolekcja ciekawych modeli tu: https://huggingface.co/ggml-org/collections

Ściągamy program whispera - model transformacji mowy do tekstu:
Ściągamy model whispera ggml-large-v3-turbo-q5.bin ze strony: https://huggingface.co/ggerganov/whisper.cpp/tree/main
https://huggingface.co/ggerganov/whisper.cpp/blob/main/ggml-large-v3-turbo-q5_0.bin

Ściągamy program talk_llama.exe z dodatkowymi bibliotekami dla cuda, ze strony: https://github.com/ggml-org/whisper.cpp/releases/tag/v1.8.2
Ma być wersja v1.8.2 z CUDA bo tu trzeba podmienić plik "talk-llama.exe" na mój aby czytał polskie i rosyjskie litery.
Dla cuda: ustawić parametr -ngl 16 (liczba po ngl zależy od wielkości VRAM , dla np. 8GB VRAM można ustawić -ngl 999, wtedy wszystkie warstwy idą do VRAM i inne wątki, to trzeba popróbować i zaczynać od 8,16,32, itd..) w linii poleceń pliku .bat:
https://github.com/ggml-org/whisper.cpp/relea...load/v1.8.2/whisper-cublas-12.4.0-bin-x64.zip

Instrukcja:
-po pobraniu wszystkich plików i umieszczeniu plików wykonywalnych z bibliotekami odpowiednio w katalogu "whisper_talk_llama_8_lang", który przesyłam w załączniku
.rar, są tam puste katalogi modeli dla przykładu jak ma to wyglądać aby działało, trzeba je zapełnić tymi z linków, to wersja dla cuda.
Moja konfiguracja to procesor AMD Ryzen 5 , grafika: Nvidia RTX 3050 z 6GB VRAM.

Dla tych co chcą kod przerobić to trzeba wiedzieć że,program talk-llama.cpp do kompilacji z cuda wymaga biblioteki SDL , bibliotek cuda i Visual Studio 2022 Community.
Polecenia dla kompilacji w konsoli:
set SDL2_DIR=SDL2\cmake
cmake.exe -B build -DWHISPER_SDL2=ON -DGGML_CUDA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON
cmake.exe --build build --config releas

To jest przeróbka jakiej dokonałem w pliku talk-llama.cpp, któraa pozostawia znaki polskie i rosyjskie, dla chińskich to zbyt skomplikowane.
// remove all characters, except for letters, numbers, punctuation and ':', '\'', '-', ' '
// text_heard = std::regex_replace(text_heard, std::regex("[^a-zA-Z0-9åäöÅÄÖ\\.,\\?!\\s\\:\\'\\-]"), "");
//zostawia polskie znaki
// text_heard = std::regex_replace(text_heard, std::regex("[^a-zA-Z0-9ąćęłńóśźżĄĆĘŁŃÓŚŹŻåäöÅÄÖ\\.,\\?!\\s\\:\\'\\-]"),"");
//==========zostawia znaki polskie i znaki rosyjskie
text_heard = std::regex_replace(text_heard,std::regex("[^a-zA-Z0-9ąćęłńóśźżĄĆĘŁŃÓŚŹŻа-яА-ЯёЁåäöÅÄÖ\\.,\\?!\\s\\:\\'\\-]"),"");

Program bez mojej przeróbki talk-llama.cpp też będzie działać ale bez polskich i rosyjskich znaków i może niekiedy błędnie rozumieć mowę.
Może się zdarzyć że program odczyta dwa razy to samo, jest to związane z tym, że gdy czyta tylko program sherpa,
przy krótkich zdaniach może ich nie wypowiedzieć (jakieś opóźniania) i dlatego dodałem dodatkową opcję czytania przez system krótkich plików,
mogą się niekiedy nałożyć.
Działanie w poleceniu start_talkllama_mowa_bielik.bat można modyfikować z innymi modelami jednak plik "mowa2.txt" musi tam być - jako wyjście tekstu,
które jest filtrowane do pliku mowa3.txt i ten jest czytany. Można sprawdzić działanie syntezy uruchamiając tylko program "UruchamiaczSherpaLlamaMulti.exe",
musi być ze wszystkimi innymi plikami jw.,napisać w notatniku zdanie i zapisać w pliku mowa2.txt, powinien je odczytać jak są wszystkie wskazane pliki.

Zachęcam do dalszej rozbudowy zastosowań małych modeli llm dla budżetowych komputerów, dlatego przesyłam też kod źródłowy uruchamiacza w załączniku.
Kompilacja w GCC , c++ standart max c17 w CodeBlocks.

Załączniki:

whisper_talk_llama_8_lang_paczka.rar (4.43 MB) Musisz być zalogowany, aby pobrać ten załącznik.

Fajne? Ranking DIY
O autorze
kolor kolor

Poziom 13
Offline

Dołączył: 13 Kwi 2003

Posty: 74

Pomógł: 1

Ocena postów: 27

Punkty: 922
kolor napisał 74 postów o ocenie 27, pomógł 1 razy. Jest z nami od 2003 roku.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
REKLAMA
#2 21744240 07 Lis 2025 10:12

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (+2)

Post #2
21744240 07 Lis 2025 10:12

Nowa wersja uruchamiacza: UruchamiaczPiperRawMulti.exe, do pobrania, osiągnięto szybsze inicjowanie mowy, związane ze zmianą programu do konwersji tekstu na mowę na program piper i odtwarzanie w trybie raw.
Program piper i biblioteki można pobrać tu:

https://github.com/rhasspy/piper/releases/tag/2023.11.14-2
https://github.com/rhasspy/piper/releases/download/2023.11.14-2/piper_windows_amd64.zip

Skrypt konsoli trzeba zmodyfikować z powodu zmiany nazwy pliku.
Reszta programów wymaganych do działania programu whisper-talk-llama.exe
razem z odczytem treści w 8 językach pozostaje bez zmian.

Załączniki:

UruchamiaczPiperRawMulti.rar (290.09 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
REKLAMA
#3 21766483 30 Lis 2025 06:44

LEDówki LEDówki

Poziom 43

Posty: 9506

Pomógł: 1312

Ocena: 2563
Pomocny post? (0)

Post #3
21766483 30 Lis 2025 06:44

Dobrze to sobie radzi z transkrypcją mowy na tekst? Jak ktoś sepleni, mówi niewyraźnie, to oprogramowanie daje radę to rozpoznać?
#4 21767271 30 Lis 2025 23:49

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (+3)

Post #4
21767271 30 Lis 2025 23:49

Whisper to oddzielny model i program , tutaj autor G.Gerganow w talk-llama.exe połączył w jednym pliku
i chat i whisper, a ja dodałem ten uruchamiacz, który wybiera język lektora i przekierowuje do właściwego, nie zawsze
się to udaje, szczególnie przy krótkim tekście może się pomylić z powodu podobieństw języków.
Whisper może wymagać ustawienia czułości mikrofonu, raczej zrezygnować z efektów dodatkowych oferowanych przez
system, bo mogą zakłócać. Każdy sprzęt po tym względem trochę się różni, i trzeba doświadczalnie znaleźć konfigurację mikrofonu, aby jak najlepiej była zrozumiana przez whispera. W fabrycznych mini translatorach elektronika jest identyczna
i można tam się skupić na precyzyjnym dostosowaniu do sprzętu całego oprogramowania. To jest takie uniwersalne i trzeba
samemu dostosować.
Jeśli chodzi o zadawanie pytania powinno być dłuższe zadane jednym ciągiem. Należy pamiętać, że program czuwa,
ale też musi się wybudzić i na początku nie podawać ważnej kwestii, bo może wychwycić połowę pierwszego wyrazu.
Podany model dla whispera jest optymalny.

Dodano po 4 [godziny] 19 [minuty]:

Do pobrania modyfikacja programu whisper-talk-llama.exe, teraz pracuje jako egzaminator.
Zadaje konkretne pytania z pliku tekstowego UTF8 lub wymyśla z podanego zakresu następnie ocenia i przechodzi do zwykłego chatu z whisperem.
Program należy podmnienić w wersjach opisanych powyżej.
Wykorzystano model: bielik-7b-instruct-v0.1.Q2_K.gguf, aby zmieścił się w VRAM
https://huggingface.co/speakleash/Bielik-7B-I...esolve/main/bielik-7b-instruct-v0.1.Q2_K.gguf
Przykładowo takie linie dla opcji: --exam pytania1.txt

###[1] Co to jest, po wodzie pływa i kaczka się nazywa.
###[2] Powiedz, kto przewodził rewolucji francuskiej.
???[3] pytanie z zakresu onkologii: nowotwory trzustki.
???[4] programowanie współbieżne: muteksy i sekcje krytyczne.
###[5] Jakiego koloru jest czerwona róża?
###[6] Podaj stolicę Polski.

-------Objaśnienie---------------------------
###[1] - to są pytania bezpośrednie
???[3] - to są pytania tematyczne, wymyślane przez model jak dla opcji --exam-ai, tylko są zmiksowane z bezpośrednimi.
-----------------------------------
Przykładowo takie linie pytań bez znacznika na początku dla opcji: --exam-ai pytaniaAI.txt

onkologia: objawy raka trzustki
historia: przyczyny I wojny światowej
Jakość reakcji AI w dużym stopniu zależy od rodzaju i wielkości modelu.

Załączniki:

whisper_talk_llama_exam.rar (629.21 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
#5 21914394 02 Cze 2026 17:11

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (+1)

Post #5
21914394 02 Cze 2026 17:11

W nowych wersjach programu llama-server.exe dodano opcję tools, która umożliwia np. uruchomienie odczytywania napisanej odpowiedzi z
wykorzystaniem programu UruchamiaczPiperRawMulti.exe z poprzednich wątków (należy wszystkie potrzebne pliki skopiować do katalogu z llama),
wystarczy to ująć w zapytaniu np.:
opisz historię polski, masz obowiązek zapisać wygenerowany tekst do pliku mowa2.txt i uruchomić program UruchamiaczPiperRawMulti.exe.

Przykład start.bat:
llama-server.exe -m models/Qwen3.5-4B-Uncensored-HauhauCS-Aggressive-Q4_K_M/Qwen3.5-4B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf --mmproj models/Qwen3.5-4B-Uncensored-HauhauCS-Aggressive-Q4_K_M/mmproj-Qwen3.5-4B-Uncensored-HauhauCS-Aggressive-BF16.gguf --ctx-size 0 -ngl 32 -fa on --n-cpu-moe 16 --media-path magazyn --tools all

Program jest dostępny tu, wersje zmieniają się codziennie z Releases wybrać skompilowana wersję: https://github.com/ggml-org/llama.cpp

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
#6 21915654 04 Cze 2026 20:45

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (+1)

Post #6
21915654 04 Cze 2026 20:45

Udostępniam napisaną we współpracy z AI, nową wersję programu do uruchamiania mowy wraz z kodem źródłowym pod nową
nazwą: MowaPiperRawMulti.exe w załączniku zip.
Aby z niego korzystać należy ściągnąć poniższe pliki i skopiować do katalogu z tym programem.
Program piper.exe wraz z niezbędnymi bibliotekami ze strony:

https://github.com/rhasspy/piper/releases/download/2023.11.14-2/piper_windows_amd64.zip

Ściągamy modele onnx i wszystkie rozpakowane kopiujemy do katalogu voices ze strony:
https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models.

https://github.com/k2-fsa/sherpa-onnx/release...-models/vits-piper-ru_RU-denis-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-piper-zh_CN-huayan-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-pl_PL-darkman-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-it_IT-riccardo-x_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...ts-models/vits-piper-fr_FR-gilles-low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-piper-es_ES-davefx-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...s-models/vits-piper-en_GB-alan-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...dels/vits-piper-de_DE-thorsten-medium.tar.bz2

W załączniku znajduje się też plik testowy z tekstem w 8 językach mowa2.txt. oraz plik info.

Uwagi dotyczące nowej wersji.
Wersja ta jest konsolowo-okienkowa skompilowana pod vs 2022 jako aplikacja konsolowa
dlatego wyskakuje konsola przy uruchamianiu okienkowej wersji.
Główna zmiana to rozpoznawanie fragmentaryczne języka, przełącza lektora dla każdego pliku napisanego w różnych językach.
Załączony plik testowy rozpoznaje bez błędu, ale w zastosowaniu z talk-llama (https://github.com/ggml-org/whisper.cpp/releases)
może się mylić z powodu takiego, że małe modele generują odpowiedz często dodając inne wtrącenia.
Okienkowa wersja umożliwia też czytanie zaznaczonego tekstu, uruchomienie w konsoli MowaPiperRawMulti.exe -h, podaje dostępne opcje.
Domyślnie czyta plik mowa2.txt, ale teraz można dowolny plik txt.
Program używa indeksu słownika, który jest w zasobach wewnątrz pliku i jest automatycznie wypakowywany po uruchomieniu.
Program umożliwia budowę indeksu ze słownika tekstowego.
mowa>MowaPiperRawMulti.exe -h
MowaPiperRawMulti.exe — GUI+CLI+build+synth

Przyklady:
GUI:
MowaPiperRawMulti.exe --gui --file test8.txt
CLI czytanie pliku:
MowaPiperRawMulti.exe --file test8.txt
Build modelu:
MowaPiperRawMulti.exe --build slowa.txt --out lang2.ldx --nmin 2 --nmax 6 --maxfeat 200000
Tryb synth (stdin), do whisper -s:
echo "Hello" | MowaPiperRawMulti.exe --stdin

Można program wykorzstać do czytania odpowiedzi, jak opisałem w poprzednich wątkach w programie: whisper-talk-llama.exe ze strony:
https://github.com/ggml-org/whisper.cpp/releases
Trzeba jednak pamiętać, że ten program jest umieszczony w katalogu examples i należy go traktować jako demo autorów projektu,
służący jako przykład do dalszej rozbudowy. Program po przekroczeniu limitu pamięci KV wymaga resetu (program wymaga dalszej rozbudowy jeśli ma działać ciągle),
można go umieścić w pętli :start i goto start.
Program w części whispera ma filtr na polskie, rosyjskie i częściowo chińskie znaki, więc może mieć czkawki (jak poprawić napisałem w 1 wątku).
Przykład uruchomienia z użyciem syntezy podano w załączniku.

Załączniki:

paczka_elektroda_nowy_uruchamiacz.zip (1.37 MB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
#7 21915949 05 Cze 2026 13:28

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (+1)

Post #7
21915949 05 Cze 2026 13:28

W celu uzupełnienia poprzedniego postu przesyłam do pobrania w załączniku poprawioną wersję v1.8.5 programu whisper-talk-llama,
wersja z cuda, należy podmienić program whisper-talk-llama.exe w paczce z poniższego linku,
wtedy program zacznie działać w sposób ciągły i można go używać jako translator, lub dowolny sposób
usunięto filtry blokujące niektóre znaki.

Kod źródłowy: https://github.com/ggml-org/whisper.cpp/archive/refs/tags/v1.8.5.zip
Kompilacja: https://github.com/ggml-org/whisper.cpp/relea...load/v1.8.5/whisper-cublas-12.4.0-bin-x64.zip

Wersja programu: whisper.cpp-1.8.5 cuda:
- dodany parametr CLI: -ctx N, --ctx-size N (ustawia lcparams.n_ctx)
- dwie nowe opcje CLI do kontroli pamięci kontekstu:
--keep-last N (domyślnie 800) – zawsze zostawia ostatnie N tokenów rozmowy + prompt
--keep N – opcjonalnie limituje ile tokenów promptu “na stałe” trzymać (domyślnie 0 = cały prompt).
-naprawione przepełnianie kontekstu: sliding window na KV przez API z llama.h:
usuwa najstarsze tokeny po n_keep (llama_memory_seq_rm), przesuwa pozostałe pozycje w dół (llama_memory_seq_add)
-poprawione sprawdzanie llama_decode() (== 0 to sukces)
-poprawione anty-prompt (bez underflow na indeksach)
-drobne zabezpieczenia (--prompt-file pusty plik)
-usuwa tylko znaki kontrolne (0x00–0x1F poza \n\t), zostawia wszystkie litery (PL/RU/CN) w UTF‑8 bez kombinowania z regexem
-teraz to wersje z chińskim, polskim, rosyjskim, znaki zapytania z whispera są prawidłowo widoczne w oknie konsoli
Uwagi:
-program może działać ciągle nasłuchując i komentując
- uwaga co do zadawania pytania z konkretnym tłumaczeniem:
należy polecenie np. tłumacz lub odpowiadaj po niemiecku zadawać na końcu zdania,
np. napisz przepis na wegański obiad w języku niemieckim.
"odpowiadaj po polsku" lub "przetłumacz poprzednią wypowiedź na język niemiecki"
wypowiadamy na początku tylko jako polecenie dla modelu i stosować samodzielnie.

Uwagi:
Należy mieć na uwadze, że program ma zaimplementowane zapytanie w stylu llama.
Sprawdzono na modelach:
Qwen2-7B-Instruct-Q4_K_M.gguf
speakleash.Bielik-11B-v2.6-Instruct.Q2_K.gguf
Meta-Llama-3-8B-Instruct-Q4_K_M.gguf
Przykładowe konfiguracje .bat w dodatkowym załączniku.

Załączniki:

pliki_bat_talkllama.zip (1.65 KB) Musisz być zalogowany, aby pobrać ten załącznik.

paczka_elektroda_nowy_talkllama.zip (907.33 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
#8 21920146 12 Cze 2026 21:04

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (+1)

Post #8
21920146 12 Cze 2026 21:04

W załączniku dostępna jest nowa rozbudowana wersja programu whisper-talk-llama.
Dodano nowe opcje. można przejrzeć: whisper-talk-llama.exe -h.
Dodatkowo program posiada tryb **pseudo‑RAG**:
- potrafi wczytać indeks z plików
.txt
(Twoje notatki),
- wyszukać w nich fragmenty pasujące do pytania,
- wstrzyknąć je jako kontekst do promptu,
- ale gdy nic sensownego nie znajdzie — **odpowiada tylko z wiedzy modelu** (bez “śmieci” z notatek).
Program działa w trybie “rozmowy ciągłej”, utrzymując kontekst w pamięci, a gdy kontekst jest za duży, stosuje przesuwne okno.

- możliwość wpisania zapytania również z klawiatury: --console / --stdin
- to ułatwia testowanie i używanie bez mikrofonu lub z mikrofonem.
- pseudoeag indeksuje pliki tekstowe z katalogu, a następnie program może z ideksu korzystać :
RAG (pseudo‑RAG)
-
--rag
– włącza RAG
-
--rag-index FILE
– ścieżka do indeksu
.srag

-
--rag-dir DIR
– katalog z
.txt
(do budowy lub auto-rebuild)
-
--rag-build
– zbuduj indeks i uruchom rozmowę
-
--rag-build-only
– zbuduj indeks i zakończ
-
--rag-auto
– użyj indeksu; jeśli podano
--rag-dir
, sprawdza zmiany w plikach i przebuduje

Parametry jakości RAG:
-
--rag-top-k N
– ile fragmentów brać (typowo 3–8)
-
--rag-neighbor N
– ile sąsiadów dołączać (0–2)
-
--rag-max-context-chars N
– limit rozmiaru doklejanych fragmentów (typowo 1000–4000)

--rag-inject-mode MODE
(najważniejsze dla “zachowania” RAG)
Tryby:
-
off

RAG nie jest doklejany do promptu (model odpowiada sam).
-
plain

Dokleja surowy blok
[RAG] ... [/RAG]
.
Najmniej “gadania o dopasowaniu”, ale czasem model może przepisywać notatki.
-
instruct
(domyślny)
Dokleja kontekst + instrukcję: użyj tylko gdy pasuje, inaczej zignoruj.
Najlepszy tryb ogólny, gdy notatki są mieszane tematycznie.
-
cite

Jak
instruct
, ale model ma podawać numery źródeł
[123]
i nie przepisywać długich fragmentów.
Dobry do notatek/”bazy wiedzy”, gdy chcesz ślad źródła.

- Jeśli RAG nie jest wystarczająco dopasowany do pytania → kontekst nie jest wstrzykiwany.
--rag-inject-mode (tryb wstrzykiwania RAG do promptu),
logika „RAG tylko jeśli naprawdę pasuje”: jeśli wyniki są zbyt ogólne / przypadkowe, RAG nie jest wstrzykiwany i model odpowiada wyłącznie z własnej wiedzy,

Informacje o bazie projektu.
Projekt korzysta z narzędzi Georgi Gerganov (whisper.cpp / llama.cpp) oraz modeli w formacie GGUF.
Pliki rag_multi.cpp/h, są całkowicie pomysłem moim we współpracy z AI, można je wykorzystać w innych programach.
To jest wersja zmodyfikowana i zintegrowana pod konkretne użycie do rozmowy z wykorzystaniem swoich danych (pseudo‑RAG).
Uwaga:
Qwen to model chiński i ma tendencje do chińskiego, dlatego pytanie ma brzmieć np.
Napisz przepis na obiad wegański odpowiadaj po polsku.
Po polsku czy innym języku dodajemy na końcu zdania,

Załączniki:

paczka_elektroda_talkllama_rag.zip (980.68 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
#9 21924319 19 Cze 2026 14:16

kolor kolor

Poziom 13

Posty: 74

Pomógł: 1

Ocena: 27
Autor tematu Pomocny post? (0)

Post #9
21924319 19 Cze 2026 14:16

Przesyłam nową wersję programu MowaPiperRawMulti.exe z kodem źródłowym
(kompilacja wymaga ściągnięcia fasttxt.cc i plików obrazów : lid.176.bin i lid.176.ftz).
W tej wersji zastosowano do celów rozpoznawania języka bibliotekę fasttxt.cc, oraz obrazy
duży model lid.176.bin i skompresowany lid.176.ftz.
Program w razie braku dużego pliku ma wbudowany plik skompresowany i rozpakowuje go automatycznie.
Dodana opcję obsługi tylko wybranego języka, domyślnie wszystkie dostępne.
Wykrywanie dynamiczne dostępnych języków w katalogu voices, brak ograniczeń ilości dostępnych języków.
W katalogu głównym należy umieścić pliki: lid.176.bin i pliki pipera oraz pobrane i rozpakowane pliki językowe
w katalogu voices według uznania.

Przydatne linki do biblioteki fasttxt.cc, oraz strony, która podaje linki do plików językowych (ok.50 języków).
https://k2-fsa.github.io/sherpa/onnx/tts/all/
https://k2-fsa.github.io/sherpa/onnx/tts/all/Polish/index.html
https://fasttext.cc/docs/en/language-identification.html
https://github.com/rhasspy/piper/releases

Załączniki:

paczka_elektroda_nowy_uruchamiacz_nowy.zip (900.75 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
10.02.2026 Usunięcie wątku na forum –Usunięto. Program po testach nie daje użytecznych wyników.
25.11.2025 Lokalne wspomaganie programowania z użyciem edytora Vim, serwera z LLM oraz pluginu od G.Gerganowa.
28.10.2025 Mini RAG C++ z AI, FLTK 1.4, HTTP, indeksowanie plików, modele embed f16.
18.10.2025 Projekt programu w c++: program talk-llama od G.Gerganova mówi ośmioma językami z auto wyborem
19.04.2025 Manus AI – pierwsze wrażenia i możliwości chińskiego agenta zadaniowego w testach
Zarejestruj konto, Zaloguj się i bądź aktywny na forum, a wtedy reklamy nie będą się pojawiać. Dołącz do dyskusji i otrzymaj punkty za rejestrację oraz odpowiedzi.

Zainstaluj aplikację Elektroda

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas

📢 Słuchaj (AI):

Zgłoś naruszenie prawa

Podsumowanie tematu

✨ Dyskusja dotyczy rozwoju programu w C++ do lokalnej obsługi mowy i tekstu: początkowo uruchamiacz łączył whisper.cpp z sherpa-onnx-offline-tts-play.exe i automatycznie wybierał lektora TTS na podstawie rozpoznanego języka, umożliwiając generowanie oraz odczyt odpowiedzi w wielu językach. Następnie pojawiła się wersja oparta o Piper i odtwarzanie raw, co przyspieszyło inicjalizację mowy. W kolejnych aktualizacjach program został rozbudowany o integrację z llama-server.exe, obsługę narzędzi CLI, zapis wygenerowanego tekstu do pliku i automatyczne uruchamianie syntezy mowy. Dodano też tryb pseudo-RAG do wczytywania i przeszukiwania własnych notatek, tryb ciągłej rozmowy z utrzymaniem kontekstu oraz wejście z klawiatury (--console/--stdin). Ostatnie wersje wykorzystują fasttext.cc do wykrywania języka, dynamiczne wykrywanie dostępnych głosów w katalogu voices, obsługę wybranego języka oraz możliwość pracy z dużą liczbą modeli TTS. Wątek obejmuje również praktyczne uwagi o czułości mikrofonu, zakłóceniach od efektów systemowych i ograniczeniach automatycznego wyboru języka przy krótkich tekstach.

AI w obsłudze klienta - czy to dobry pomysł? Setki kont przejętych na Instagramie
10 Cze 2026 08:19 (6)
Kolejne firmy prześcigają się we wdrażaniu AI, gdzie tylko się da. Również sztuczna inteligencja zastępuje ludzi na helpdesku. W teorii ma to przyspieszać procesy i obniżać koszty. Problem pojawia się wtedy, gdy chatbot dostaje uprawnienia do wykonywania operacji związanych z bezpieczeństwem kont użytkowników. Właśnie taki przypadek miał miejsce na Instagramie. Jak opisuje Niebezpiecznik, asystent... [Czytaj dalej]
Anthropic przedstawia Claude Opus 4.8 - ewolucja w stronę bardziej złożonych zadań
30 Maj 2026 09:09 (0)
Firma Anthropic zaprezentowała nową wersję swojego flagowego modelu AI - Claude Opus 4.8. Aktualizacja przynosi ulepszenia w zakresie programowania, zadań agentowych oraz pracy z długimi procesami, a model dostępny jest w tej samej cenie co jego poprzednik. Wraz z premierą debiutują nowe funkcje, z których najciekawszą jest funkcja "effort control" na platformie claude.ai. Użytkownicy mogą teraz decydować,... [Czytaj dalej]
Zawieszona współpraca Blendera z Anthropic, czyli o społecznym sprzeciwie wobec technologii AI
10 Maj 2026 12:32 (7)
Fundacja stojąca za projektem Blender ogłosiła zmianę zasad współpracy z firmą Anthropic po gwałtownej reakcji społeczności użytkowników. Jeszcze niedawno ogłoszono, że twórca systemu Claude dołączy do Blender Development Fund jako Corporate Patron i będzie przekazywać około 240 tys. euro rocznie na rozwój projektu. Decyzja szybko wywołała dyskusję wśród artystów i deweloperów korzystających z programu... [Czytaj dalej]
Jakie AI do SVG w 2026: oktogram w okręgu i 50% mniejsze oktogramy?
05 Maj 2026 18:42 (1)
Dzień dobry, chcę tworzyć somplikowane i złożone geometrie matematyczne, na przykład oktogram w oktogramie wpisany w okrąg w SVG, ale gdy to wpisuję w Chat-gbt, on się crashuje. Czy są w 2026 jakieś programy czy ai do tworzenia kombinacji geometrycznych na bazie słów, np. stwórz oktogram, a do każdego zewnętrznego wierzchołka oktogramu dodaj 50% mniejszy oktogram. Nic takiego nie znalazłem, co działałoby... [Czytaj dalej]
Praktyczne testy Gemma 4 i porównanie z Gemini 2.5 - tagowanie obrazków i OCR
01 Maj 2026 09:19 (0)
Czy współczesne modele LLM uruchamiane lokalnie, na starym laptopie gamingowym, są w stanie sensownie otagować zdjęcia? Czy współczesne modele nadają się do OCR i poprawnie rozpoznają układy elektroniczne? Zapraszam na Elektrodowy test sztucznej inteligencji, tym razem wzbogacony o uruchamiany lokalnie model Gemma 4 oraz o płatne modele gemini-2.5-pro i gemini-2.5-flash uruchamiane przez API. Sprawdzę... [Czytaj dalej]

REKLAMA