Gerganov opracował własną bibliotekę GGML do zastosowań w AI, jego programy napisane w c/c++ zajmują tylko kilka MB co w porównaniu z zajmującymi kilkuset MB
bibliotekami tensorów w pythonie daje nowe możliwości. Wady to nie ma jeszcze wszystkich opcji dostępnych w pythonie i jest niskiego poziomu.
Coś dla wszystkich amatorów AI, własny lokalny polski model Bielik połączony z whisperem produkcji Gereganova (https://github.com/ggerganov).
Można głosem przekazywać polecenia do modelu i odpowiedzi zostaną odczytane w systemowym TTS. Należy wybrać odpowiedni głos w systemie Win.
Odpowiedzi są dostępne w formie pliku tekstowego co można wykorzystać w połączeniu z innymi programami lub przerobić dostępny kod źródłowy w c++
do własnych zastosowań. Whisper rozpoznaje dobrze mowę polską i inne języki. Ma opcję tłumaczenia na angielski.
Polski model językowy może udzielać odpowiedzi również po angielsku. Przed rozpoczęciem konwersacji wskazane jest zdanie " odpowiadaj tylko po polsku".
Idealny darmowy kompan dla pustelników, bez internetu.
Co należy zrobić:
-pobrać model whispera ze strony ---- https://huggingface.co/ggerganov/whisper.cpp/tree/main
- wskazany model to --- ggml-small.bin (większy model może nie nadążać)
-pobrać plik --- talk-llama.exe np. https://github.com/ggerganov/whisper.cpp/releases/download/v1.6.0/whisper-bin-x64.zip
- opis konfiguracji talk-llama.exe tutaj -- opis tutaj --- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama
-pobrać polski model językowy Bielik ze strony https://huggingface.co/speakleash/Bielik-11B-v2.3-Instruct-GGUF/tree/main
- wskazany model Bielik-11B-v2.3-Instruct.Q4_K_M.gguf (może być dowolny model w formacie gguf)
-trzeba pokombinować z ustawieniami syntezatora mowy polskiej w zależności od systemu są inne warunki dostępności do TTS, tutaj
poczytać ---- https://github.com/ggerganov/whisper.cpp/blob/master/examples/talk-llama/speak
- tu dostępne video z autorem i gadającym llamaą --- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama
Jeśli chodzi o generowanie polskiej mowy talk-llama.exe w systemowym win TTS to występuje błędna wymowa polskich znaków.
LLama generuje tekstowy plik wyjściowy w formacie UTF8, a systemowy TTS wymaga ANSI/CP-1250.
Trzeba skonwertować tekst przed wysłaniem do TTS na ANSI/CP-1250, załączam program konwersjaUTF8do1250v2.exe,
który tego dokonuje, trzeba go dodać w pliku .bat przed wywołaniem TTS.
Powstają dwa pliki tekstowe mowa2.txt jest oryginalny, a mowa3.txt skonwertowany i ten należy wysłać do TTS.
Te porady dotyczą tylko systemu win.
Mowę polską zainicjować zdaniem "odpowiadaj tylko po polsku".
Dołączam program i moje pliki konfiguracyjne w załączniku.
Przy dekodowaniu i tokenizacji mogą pojawić się błędy dlatego program talk-llama.exe z parametrami można umieścić w pętli w pliku bat
( :start program goto start ), aby zrestartować automatycznie.
Błąd dekodowania pojawia się w kodzie źródłowym talk-llama.cpp w linii ok. 706, po przefiltrowaniu tekstu w bibliotece regex.
podczas generowaniu tekstu przez model bielika.
Może to być jakiś bag, ktoś może spróbuje poprawić kod źródłowy?
Powyższe propozycje zastosowań programów G.Gerganova można uzupełnić o możliwość identyfikacji obrazów, zdjęć i wykonywania opisów ich zawartości.
Co może przydać się np. w analizie zdjęć z monitoringu lub aplikacji dla niewidomych.
Co należy zrobić:
-ściągamy paczkę w zależności od systemu i możliwości komputera z adresu == https://github.com/ggerganov/llama.cpp/releases
-ściagamy modele dla wersji llava 1.5 ==https://huggingface.co/mys/ggml_llava-v1.5-7b/blob/main/mmproj-model-f16.gguf
i https://huggingface.co/mys/ggml_llava-v1.5-7b/blob/main/ggml-model-q5_k.gguf
-dla wersji llava 1.6 == https://huggingface.co/cmp-nct/llava-1.6-gguf/blob/main/vicuna-13b-q5_k.gguf
i https://huggingface.co/cmp-nct/llava-1.6-gguf/blob/main/vicuna-13b-q6_k.gguf
-z pobranej paczki uruchamiamy program z parametrami np.
llama-llava-cli.exe -m models/ggml-model-q5_k.gguf --mmproj models/mmproj-model-f16.gguf --temp 0.1 -ngl 66 -p "describe the image in detail, colors in detail, answer in Polish " --image "screenshot.bmp" --log-colors --log-file log.txt
- opis autora na stronie == https://github.com/ggerganov/llama.cpp/tree/master/examples/llava
-przy odpowiedniej mocy obliczeniowej można zbudować jak z klocków widzącego i słyszącego osobnika AI.
Alternatywny sposób generowania mowy dla talk-llama.exe to chińska sherpa-onnx (https://github.com/k2-fsa/sherpa-onnx).
Można wypróbować, jest demo online --- https://huggingface.co/spaces/willwade/sherpa-onnx-tts.
Co należy zrobić:
-pobrać program konsolowy sherpa-onnx-offline-tts-play.exe ---- https://github.com/k2-fsa/sherpa-onnx/release...4/sherpa-onnx-v1.10.34-win-x64-shared.tar.bz2 (są też dema okienkowe).
-pobrać dowolny model ze strony:
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-mimic3-pl_PL-m-ailabs_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-pl_PL-darkman-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...-models/vits-piper-pl_PL-gosia-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-mimic3-pl_PL-m-ailabs_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...d/tts-models/vits-coqui-pl-mai_female.tar.bz2
-skonfigurować sherpa/vits , whispera i llama/bielik za pomocą plików konsoli .bat i PowerShella .ps.
- moje pliki w załączniku
-maksymalny rozmiar tekstu dla sherpa uruchamianego osobno to ok. 22kb, tekst dostarczony poprzez $string Powershela może być krótszy?.
bibliotekami tensorów w pythonie daje nowe możliwości. Wady to nie ma jeszcze wszystkich opcji dostępnych w pythonie i jest niskiego poziomu.
Coś dla wszystkich amatorów AI, własny lokalny polski model Bielik połączony z whisperem produkcji Gereganova (https://github.com/ggerganov).
Można głosem przekazywać polecenia do modelu i odpowiedzi zostaną odczytane w systemowym TTS. Należy wybrać odpowiedni głos w systemie Win.
Odpowiedzi są dostępne w formie pliku tekstowego co można wykorzystać w połączeniu z innymi programami lub przerobić dostępny kod źródłowy w c++
do własnych zastosowań. Whisper rozpoznaje dobrze mowę polską i inne języki. Ma opcję tłumaczenia na angielski.
Polski model językowy może udzielać odpowiedzi również po angielsku. Przed rozpoczęciem konwersacji wskazane jest zdanie " odpowiadaj tylko po polsku".
Idealny darmowy kompan dla pustelników, bez internetu.
Co należy zrobić:
-pobrać model whispera ze strony ---- https://huggingface.co/ggerganov/whisper.cpp/tree/main
- wskazany model to --- ggml-small.bin (większy model może nie nadążać)
-pobrać plik --- talk-llama.exe np. https://github.com/ggerganov/whisper.cpp/releases/download/v1.6.0/whisper-bin-x64.zip
- opis konfiguracji talk-llama.exe tutaj -- opis tutaj --- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama
-pobrać polski model językowy Bielik ze strony https://huggingface.co/speakleash/Bielik-11B-v2.3-Instruct-GGUF/tree/main
- wskazany model Bielik-11B-v2.3-Instruct.Q4_K_M.gguf (może być dowolny model w formacie gguf)
-trzeba pokombinować z ustawieniami syntezatora mowy polskiej w zależności od systemu są inne warunki dostępności do TTS, tutaj
poczytać ---- https://github.com/ggerganov/whisper.cpp/blob/master/examples/talk-llama/speak
- tu dostępne video z autorem i gadającym llamaą --- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama
Jeśli chodzi o generowanie polskiej mowy talk-llama.exe w systemowym win TTS to występuje błędna wymowa polskich znaków.
LLama generuje tekstowy plik wyjściowy w formacie UTF8, a systemowy TTS wymaga ANSI/CP-1250.
Trzeba skonwertować tekst przed wysłaniem do TTS na ANSI/CP-1250, załączam program konwersjaUTF8do1250v2.exe,
który tego dokonuje, trzeba go dodać w pliku .bat przed wywołaniem TTS.
Powstają dwa pliki tekstowe mowa2.txt jest oryginalny, a mowa3.txt skonwertowany i ten należy wysłać do TTS.
Te porady dotyczą tylko systemu win.
Mowę polską zainicjować zdaniem "odpowiadaj tylko po polsku".
Dołączam program i moje pliki konfiguracyjne w załączniku.
Przy dekodowaniu i tokenizacji mogą pojawić się błędy dlatego program talk-llama.exe z parametrami można umieścić w pętli w pliku bat
( :start program goto start ), aby zrestartować automatycznie.
Błąd dekodowania pojawia się w kodzie źródłowym talk-llama.cpp w linii ok. 706, po przefiltrowaniu tekstu w bibliotece regex.
podczas generowaniu tekstu przez model bielika.
Może to być jakiś bag, ktoś może spróbuje poprawić kod źródłowy?
Powyższe propozycje zastosowań programów G.Gerganova można uzupełnić o możliwość identyfikacji obrazów, zdjęć i wykonywania opisów ich zawartości.
Co może przydać się np. w analizie zdjęć z monitoringu lub aplikacji dla niewidomych.
Co należy zrobić:
-ściągamy paczkę w zależności od systemu i możliwości komputera z adresu == https://github.com/ggerganov/llama.cpp/releases
-ściagamy modele dla wersji llava 1.5 ==https://huggingface.co/mys/ggml_llava-v1.5-7b/blob/main/mmproj-model-f16.gguf
i https://huggingface.co/mys/ggml_llava-v1.5-7b/blob/main/ggml-model-q5_k.gguf
-dla wersji llava 1.6 == https://huggingface.co/cmp-nct/llava-1.6-gguf/blob/main/vicuna-13b-q5_k.gguf
i https://huggingface.co/cmp-nct/llava-1.6-gguf/blob/main/vicuna-13b-q6_k.gguf
-z pobranej paczki uruchamiamy program z parametrami np.
llama-llava-cli.exe -m models/ggml-model-q5_k.gguf --mmproj models/mmproj-model-f16.gguf --temp 0.1 -ngl 66 -p "describe the image in detail, colors in detail, answer in Polish " --image "screenshot.bmp" --log-colors --log-file log.txt
- opis autora na stronie == https://github.com/ggerganov/llama.cpp/tree/master/examples/llava
-przy odpowiedniej mocy obliczeniowej można zbudować jak z klocków widzącego i słyszącego osobnika AI.
Alternatywny sposób generowania mowy dla talk-llama.exe to chińska sherpa-onnx (https://github.com/k2-fsa/sherpa-onnx).
Można wypróbować, jest demo online --- https://huggingface.co/spaces/willwade/sherpa-onnx-tts.
Co należy zrobić:
-pobrać program konsolowy sherpa-onnx-offline-tts-play.exe ---- https://github.com/k2-fsa/sherpa-onnx/release...4/sherpa-onnx-v1.10.34-win-x64-shared.tar.bz2 (są też dema okienkowe).
-pobrać dowolny model ze strony:
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-mimic3-pl_PL-m-ailabs_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...odels/vits-piper-pl_PL-darkman-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...-models/vits-piper-pl_PL-gosia-medium.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...models/vits-mimic3-pl_PL-m-ailabs_low.tar.bz2
https://github.com/k2-fsa/sherpa-onnx/release...d/tts-models/vits-coqui-pl-mai_female.tar.bz2
-skonfigurować sherpa/vits , whispera i llama/bielik za pomocą plików konsoli .bat i PowerShella .ps.
- moje pliki w załączniku
-maksymalny rozmiar tekstu dla sherpa uruchamianego osobno to ok. 22kb, tekst dostarczony poprzez $string Powershela może być krótszy?.
Fajne? Ranking DIY