Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Asystent Domowy do kontroli świateł - prompt ChatGPT - OpenAI API w akcji

p.kaczmarek2 20 Kwi 2023 20:18 8817 25

TL;DR

Zbudowano domowego asystenta z API OpenAI, który łączy rozmowę w stylu ChatGPT z kontrolą świateł i innych urządzeń w domu.
Klucz polega na prompcie z dwiema sekcjami: SAY do odpowiedzi oraz DO do wywołań typu setLightEnabled(room,state), a aplikacja parsuje te bloki osobno.
Prototyp napisano w C# z biblioteką OpenAI-API-dotnet; do testów użyto też Tasmota HTTP, np. adresu http://192.168.0.201/cm?cmnd=POWER%20ON.
System poprawnie wywnioskowuje z kontekstu, w którym pokoju zapalić lub zgasić światło, ale czasem odmawia losowego wyboru albo myli się w prostych zadaniach matematycznych.
Wcześniej użycie słowa CODE powodowało, że model traktował sterowanie jak kod Pythona, a dodatkowym problemem bywały zbędne linki w odpowiedziach.

Podsumowanie wygenerowane przez AI na podstawie treści dyskusji.

REKLAMA

Zgłoś naruszenie prawa

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas Preferuj w

Autor tematu Pomocny post? (+10)

Post #1
20548901 20 Kwi 2023 20:18

Pokażę tutaj jak można wykorzystać API OpenAI do utworzenia inteligentnego asystenta domowego. Nasz asystent będzie posiadać zdolności ChatGPT, a jednocześnie będzie w stanie też kontrolować stan świateł (i innych urządzeń) w naszym domu. Asystent będzie rozumieć złożone komendy językowe, nawet będzie w stanie z kontekstu rozmowy wywnioskować w jakim pomieszczeniu jesteśmy i włączyć tam światło. Oprócz tego będzie można było z nim rozmawiać tak jak z ChatGPT, czyli zasadniczo zapytać go o wszystko, czasem z lepszym, a czasem z gorszym skutkiem.

Ten temat skupi się na kwestii wykorzystania API OpenAI oraz dobrania odpowiedniego promptu. W tym temacie pominę kwestie takie jak zamiana mowy na tekst a potem tekstu na mowę.

Pierwszy eksperyment z prompt
ChatGPT może tylko pisać, ale pisać może wiele - zgodnie z naszymi prośbami jest w stanie odgrywać role, odpowiednio się zachowywać i symulować wiele sytuacji.
W związku z tym spróbowałem go 'poprosić', by swe wypowiedzi dzielił na dwie sekcje - sekcja "SAY" (co mówi) oraz "CODE" - co wykonuje.
Oto moje pierwsze próby z promptami:

Ten model językowy jest w stanie jednocześnie pamiętać początkowy prompt (i działać wedle niego) oraz jednocześnie prowadzić ogólną, luźną rozmowę o gotowaniu czy o czymkolwiek co ma wyuczone. W momencie poproszenia o wykonanie operacji na oświetleniu, model poprawnie używa zaoferowanego mu API. Całkiem nieźle, nadaje się na asystenta...

Użyta biblioteka do API ChatGPT
Prototyp napisałem w C#, użyłem do tego biblioteki do API OpenAI:
https://github.com/OkGoDoIt/OpenAI-API-dotnet
To API można zainstalować w Visual Studio poprzez NuGet Packages:

Wpisujemy co trzeba i bingo:

W razie problemów, upewniamy się że mamy odpowiednio wysoką wersję NET framework (sam musiałem doinstalować 4.7.2):

Oczywiście trzeba mieć wykupione API (i klucz do tego API), ale o tym pisałem już jakiś czas temu.
Biblioteka OpenAI_API wszystko ułatwia. Oto najmniejszy przykład:
Kod: C#
Zaloguj się, aby zobaczyć kod

To naprawdę tylko trzy linijki! A w sumie dwie...
Pierwsza to uruchomienie API (podanie naszego klucza), można to w sumie zrealizować w kilka sposobów:
Kod: C#
Zaloguj się, aby zobaczyć kod

Potem można do woli z niego korzystać. Oto przykłąd prowadzenia rozmowy z ChatGPT:
Kod: C#
Zaloguj się, aby zobaczyć kod

Biblioteka też wspiera streaming odpowiedzi, czyli wczytywanie jej na bieżąco, znak po znaku. Wygląda to tak, wersja C# 8.0 async iterator:
Kod: C#
Zaloguj się, aby zobaczyć kod

Wersja sprzed C# 8.0:
Kod: C#
Zaloguj się, aby zobaczyć kod

Plan działania
W oparciu o zebrane informacje i eksperymenty z promptami powstał plan działania utworzenia asystenta domu. Oto jego skrócona wersja:
1. System uruchamia ChatGPT z promptem o 'SAY' i 'CODE', wraz z listą pokojów
2. Użytkownik może komunikować się z ChatGPT przez naszą aplikację i API ChatGPT, ChatGPT może rozmawiać o wszystkim, nawet zmyślać te swoje historie różne
3. Aplikacja dodatkowo parsuje wiadomości ChatGPT i wyciąga z nich osobno blok CODE i SAY, SAY zostaje wyświetlony a CODE wykonany (np. poprzez wysłanie żądania do odpowiednich świateł)

Podłączenie świateł do systemu
Ten temat skupia się na użyciu modelu językowego, ale i tak dodam, że u mnie światła byłyby kontrolowane np. przez Tasmota HTTP, które wspiera zarówno Tasmota, jak i OpenBeken.
Aby włączyć dane światło wystarczy wysłać do niego zapytanie HTTP:
Kod: text Rozwiń Zaznacz wszystko Kopiuj do schowka
http://192.168.0.201/cm?cmnd=POWER%20ON

Ale o tym można poczytać chociażby w dokumentacji Tasmoty.
Dzięki takiemu podłączeniu urządzeń mamy też integrację z Home Assistant - a dokładniej, Home Assistant może tez sterować tymi samymi urządzeniami.

Demonstrancja aplikacji
W celu przetestowaniu pomysłu przygotowałem małą aplikację okienkową, która pozwala wpisać odpowiedzi/polecenia dla AI, jak również też pozwala dodać gotowe odpowiedzi z predefiniowanej listy, to w celu przyśpieszenia testowania.
Aplikacja również śledzi stan (na ten moment symulowanych) świateł oraz koloruje odpowiednio fragmenty rozmowy.
Oto krótka demonstracja:

Tak jak zapowiedziane - ChatGPT jest w stanie poprawnie rozumieć luźne polecenia podane w języku naturalnym, nie ma problemu z rozponaniem o co nam chodzi i poprawnie korzysta z udostępnionego mu API do kontroli świateł. To nie jest zwykły bot, który szuka "Turn on kitchen" na sztywno, tu cały zaawansowany model językowy interpretuje nasze wypowiedzi.
Oto test kontekstu rozmowy, z Asystentem Domowym można rozmawiać nawet o gotowaniu w trakcie przebywania w kuchni a on potem sam wywnioskuje gdzie ma włączyć światło:

Oto ciąg dalszy rozmowy powyżej - AI wnioskuje z kontekstu, że trzeba zgasić światło w kuchni i zapalić w jadalni:

Ciąg dalszy - można poprosić AI o wyłączenie wszystkich świateł:

Oto inny przykład, AI potrafi domyśleć się o jaki pokój chodzi bez podawania jego nazwy:

Dodatkowo AI zdaje się rozumieć kolejność włączenia światła - poprawnie zareagowało na prośbę o wyłączenie światła w pierwszym pokoju o którym była mowa...
Inny przykład - AI domyśla się pokoju z kontekstu wypowiedzi:

Inny przykład:

Napotkane problemy
Bardzo ciekawy problem napotkałem w początkowym stadium projektu, gdzie mój prompt korzystał ze słowa "CODE" zamiast z "DO" - wtedy AI upierało się na to, że wykonuje niby kod Pythona i wysypawało się gdy prosiłem o załączenie losowego światła:

Transkrypt rozmowy:
Kod: text Rozwiń Zaznacz wszystko Kopiuj do schowka
Prompt: You are a Home Assistant. You can only prefix your messages with SAY if you want to say something, and CODE if you want to run code command. You can control lights by writing text command setLightEnabled(room,state), where room can be: Kitchen, Bedroom, Bathroom, Hall, Toilet, Dining Room, and state can be on or off.Do not use any other code commands.Please keep talking with user and use the command when asked to. Please do not ask user to use commands.Please do not use commands without any reason.Now, start conversation with user. AI raw reply: SAY: Hello there! How can I assist you today? AI says: Hello there! How can I assist you today? User: This is just a test. For a testing purpose, pick one room randomly and turn on there light. AI raw reply: CODE: import random room_list = ['Kitchen', 'Bedroom', 'Bathroom', 'Hall', 'Toilet', 'Dining Room'] random_room = random.choice(room_list) setLightEnabled(random_room, "on") SAY: I have randomly selected the {random_room} and turned on the light.

Zmodyfikowałem prompt tak, by nie zawierał słowa Code, które kojarzy się z Pythonem, i zastąpiłem je słowem DO:

Ciekawa obserwacja - czy AI włączy losowe światło?
Inną moją ciekawą obserwacją jest to, że AI poproszone o włączenie losowego światła, grzecznie nam odmawia i czasem tłumaczy, że to by mogło zaskoczyć użytkownika i wprowadzić zamieszanie. Aby uzyskać oczekiwany rezultat należy najpierw podkreślić, że włączamy losowe światło w ramach testu. Przykład poniżej:

Przykład numer dwa (prośba o włączenie dwóch losowych świateł):

Ciekawa obserwacja - czy AI włączy światło w pokoju którego nie ma na liście?
Co zrobi model językowy, gdy poprosimy go o zapalenie światła w pokoju którego nie ma na liście? Sprawdźmy:

Model nie zmyśla, poprawnie wykrywa, że attic nie ma na liście i odmawia wykonania operacji. Co więcej, podaje listę znanych mu pokoi.

Potencjalny problem
Jednym z problemów jaki napotkałem w trakcie testów jest tendencja AI do okazjonalnego wysyłania nam linków, które są oczywiście bez sensu w przypadku komunikacji głosowej.

Możliwe, że odpowiednia dopiska w prompcie to naprawi, ale tego już nie sprawdzałem.

Gra ze światłem?
Teraz najciekawszy eksperyment. Zaproponujmy AI grę - AI włącza wszystkie światła i zadaje użytkownikowi pytania z matematyki. Jeśli użytkownik odpowie źle, to gasi jedno światło. Czy AI da radę?
Zaczynamy zabawę:
Cytat:

Let's play a game. First turn on all lights with DO. Then ask me math questions. If I answer correctly, do nothing. If I give wrong answer, use DO to turn off random light.

To serio działa:

Niestety, po chwili pojawia się problem... model językowy się wysypał na mnożeniu:

Liczę, że GPT 4 będzie w tym nieco lepsze.

Podsumowanie
Odpowiedni prompt sprawia, że model językowy ChatGPT jest w stanie sensownie kontrolować oświetleniem na bazie prowadzonej z użytkownikiem rozmowy. Model dość sensownie trzyma kontekst rozmowy oraz posługuje się udostępnionym mu prymitywnym API, przy czym jednocześnie oferuje dalej to wszystko co oferuje w swojej normalnej wersji. Model jest nawet na tyle "zrozumieć" kontekt rozmowy, że potrafi z niego wywnioskować gdzie jesteśmy i jakie światło chcemy zapalić.
Widzę tu potencjał na "inteligentnego" pomocnika dla osób niepełnosprawnych bądź chorych, w zwykłym domu pewnie też niektórym taki gadżet by się spodobał, chociaż nie uważam, by był niezbędny. To tylko zbędny bajer.
Jak na razie wykonałem tylko wstępne testy, ale warto byłoby jeszcze sprawdzić:
- jak radzi sobie ten model przy dłuższej rozmowie (czy gubi wątek, by może soft powinien resetować rozmowę)
- jak radzi sobie system przy większej ilości świateł
- czy system można rozwinąć i np. dać też mu kontrolę nad jasnością światła bądź nad kolorem
- można tez rozważyć podpięcie innych systemów, by AI np. kontrolowało grzanie i rozumiało polecenie "it's too hot in the kitchen", itd.
- zastanawiam się również, czy GPT-4 by sobie tu lepiej jeszcze poradził
W temacie też pokazałem kilka sytuacji, w których model ChatGPT się wysypał. Pierwsza z nich była sytuacja, gdzie użycie słowa "CODE" (zastąpionego potem "DO") do oznaczenia kontroli świateł sprawiło, że model zaczął myśleć, że pisze w Pythonie i po prośbie o zapalenie losowego światła, zamiast po prostu wybrać pomieszczenie to napisał kod losowania pomieszczenia... druga sytuacja to była z grą-zabawą, gdzie poprosiłem model by gasił światła jak odpowiem źle. Tu troszkę się mylił.
Zamieszczam kod demka - napisany na szybko, oczywiście bez exe i bez klucza, trzeba uzupełnić Form1.cs własnym kluczem przed uruchomieniem.

Załączniki:

ChatGPT3-nokey-20230420.zip (15.18 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Fajne? Ranking DIY
Pomogłem? Kup mi kawę.
O autorze
p.kaczmarek2 p.kaczmarek2

Moderator Smart Home
Offline

Dołączył: 26 Gru 2014

Posty: 14705

Pomógł: 658

Ocena postów: 12759

Punkty: 145941
Inżynier programista z wieloletnim doświadczeniem embedded i full stack developer.
Specjalizuje się w: embedded, Full-Stack Developer
p.kaczmarek2 napisał 14705 postów o ocenie 12759, pomógł 658 razy. Jest z nami od 2014 roku.

Promuję tematy:
12.07.2026 Przemysłowy moduł z Wi-Fi, LAN, PoE, RS485, wejściami i przekaźnikami - ESP32-S3-POE-ETH-8DI-8RO - t
10.07.2026 Wnętrze i zmiana firmware przekaźnika/licznika energii na szynę DIN GBDQA 63VA 16A
09.07.2026 Moduł przekaźnika sterowanego radiowo 433 MHz i przez Wi-Fi - jak sparować pilota? Zmiana firmware
08.07.2026 Wnętrze elektronicznego przekaźnika czasowego RTx-132 Made In Poland (MCY74645?)
06.07.2026 Kogo firmy szukają, a kto szuka pracy? Analiza zapotrzebowania w branży IT (Lipiec 2026)
REKLAMA
#2 20549325 21 Kwi 2023 07:38

LordZiemniak LordZiemniak

Poziom 15

Posty: 158

Pomógł: 8

Ocena: 51
Pomocny post? (+2)

Post #2
20549325 21 Kwi 2023 07:38

Wszystko fajnie, teraz to kwestia chwili jak w domch bedzie jak w filmach s/f wchodzisz i rozmaiwasz z domem on robi kawe, szykuje łazienke do kąpieli robi temperatur odpowiednią, odpala radyjko, włącza jeszcze bardziej inteligentnego termomixa, na podstawie braków w lodówce sam robi zakupy i te dowozi nam dron pod dom, proponuje nam menu itp... no fajnie tylko teraz nie opłacimy subskrypcji i kuniec dobroci.... już pomijając totalną inwigilację i zniewolenie
#3 20549396 21 Kwi 2023 08:47

ADI-mistrzu ADI-mistrzu

Poziom 30

Posty: 2261

Pomógł: 37

Ocena: 308
Pomocny post? (0)

Post #3
20549396 21 Kwi 2023 08:47

@lucaspatecki tylko zaraz będą takie systemy działające lokalnie bez potrzeby posiadania połączenia do sieci.
Więc sama komunikacja będzie lokalna, nie bój się

Promuję tematy:
27.01.2023 Auta elektryczne czy spalinowe? Analiza
03.06.2022 Mochabin-5G - 5-portowy router gigabitowy oparty na Armada 7040
19.05.2022 Adapter programatorów JTAG/SWD z regulacją napięcia i UART
09.03.2020 Challange "Pokonać piekło" - czyli rozwiązania dla sondy Wenus
REKLAMA
#4 20549443 21 Kwi 2023 09:41

gulson gulson

Administrator Systemowy

Posty: 29428

Pomógł: 150

Ocena: 6085
Pomocny post? (0)

Post #4
20549443 21 Kwi 2023 09:41

Czekam na rozwiązanie z rozpoznawaniem mowy, można użyć Whisper!

Przy okazji, właśnie wydali Whisper do rozpoznawania mowy, który można sobie uruchomić na swoim komputerze.
https://github.com/ggerganov/whisper.cpp

Modele językowe też już stawiają, nawet na Raspberry Pi.
I to by było na tyle, świat nie będzie taki sam.

Promuję tematy:
21.06.2026 Zegar NTP na Waveshare ESP32-S3 4.2" RLCD - open source z RTC, MP3, WWW i oszczędzaniem energii
21.04.2026 ChatGPT Images 2.0 - potrafi tworzyć nawet całe czasopisma
19.02.2026 OpenClaw w robotyce czyli czas autonomicznych robotów - wizja przyszłości SkyNetu w formie felietonu
19.02.2026 Humanoidalne roboty z okazji Nowego Roku Chińskiego a niepokój o przyszłość.
13.02.2026 GPT-5.3 Codex i Opus 4.6 – wpływ nowych modeli AI na rynek pracy i automatyzację
#5 20549446 21 Kwi 2023 09:44

czareqpl czareqpl

Poziom 33

Posty: 1955

Pomógł: 196

Ocena: 580
Pomocny post? (0)

Post #5
20549446 21 Kwi 2023 09:44

Pierwszy post pod artykułem i już DOOM, zagłada i zniewolenie... A może po prostu taki wygodny świat jak w drugiej części "Powrotu do przyszłości" ?

Poza tym, przecież subskrypcja na to ułatwienie jest DOBROWOLNA. Nie płacisz, to się wysilasz sam.

Tak samo wygląda używanie samochodu. Subskrypcja wygasa w momencie zużycia paliwa z baku. Chcesz jechać dalej - płacisz. Jak nie płacisz to piechotą lub rowerem. No i też jest inwigilacja, bo po tym gdzie tankujesz SYSTEM wie, gdzie jesteś.

Promuję tematy:
16.11.2017 Urządzenie do pomiaru sprawności przetwornic DC/DC oraz pomiaru warunków
01.09.2017 Inżynierski dobór filtrowania w torach zasilania
29.08.2017 Moduł Ethernet do instalacji inteligentnego budynku ATMega32 &ENC28J60
29.08.2017 Telefon własnej roboty oparty na STM32, FT811 oraz Raspberry Pi
#6 20549533 21 Kwi 2023 11:01

Konto nie istnieje Konto nie istnieje

Poziom 1

Post #6
20549533 21 Kwi 2023 11:01

ADI-mistrzu napisał:
tylko zaraz będą takie systemy działające lokalnie bez potrzeby posiadania połączenia do sieci.

Bardzo w to wątpię. Już dzisiaj rozwiązania typu HA w wersji "chmurowej" oferują większą funkcjonalność niż te same, w wersji "domowej" bez dostępu do netu.

czareqpl napisał:
Tak samo wygląda używanie samochodu. Subskrypcja wygasa w momencie zużycia paliwa z baku. Chcesz jechać dalej - płacisz.

Porównanie całkowicie nietrafione. Samochód nie wymaga opłacania stałej subskrypcji, aby móc do niego wsiąść, a następnie udać się np. na stację benzynową w celu zatankowania paliwa.

Dodano po 3 [minuty]:

gulson napisał:
I to by było na tyle, świat nie będzie taki sam.
#7 20549555 21 Kwi 2023 11:23

czareqpl czareqpl

Poziom 33

Posty: 1955

Pomógł: 196

Ocena: 580
Pomocny post? (+1)

Post #7
20549555 21 Kwi 2023 11:23

khoam napisał:
Porównanie całkowicie nietrafione. Samochód nie wymaga opłacania stałej subskrypcji, aby móc do niego wsiąść, a następnie udać się np. na stację benzynową w celu zatankowania paliwa.

Tak samo nie potrzeba opłacania subskrypcji sprzęt Home Asistant, aby móc go podłączyć do prądu i wejść do panelu sterowania aby zapłacić za kolejny miesiąc użytkowania.

A skąd jest paliwo w baku pozwalające na podróż na stację w celu zatankowania? Z poprzednio opłaconej "subskrypcji".
Ci co się buntują i odmawiają płacenia "subskrypcji" do samego końca, chodzą z kanisterkiem

Promuję tematy:
16.11.2017 Urządzenie do pomiaru sprawności przetwornic DC/DC oraz pomiaru warunków
01.09.2017 Inżynierski dobór filtrowania w torach zasilania
29.08.2017 Moduł Ethernet do instalacji inteligentnego budynku ATMega32 &ENC28J60
29.08.2017 Telefon własnej roboty oparty na STM32, FT811 oraz Raspberry Pi
#8 20549601 21 Kwi 2023 11:53

gulson gulson

Administrator Systemowy

Posty: 29428

Pomógł: 150

Ocena: 6085
Pomocny post? (0)

Post #8
20549601 21 Kwi 2023 11:53

Home Assistant jest darmowy, płatna jest tylko usługa dostępu z zewnątrz, jeśli używasz NAT. Można skorzystać z serwisów, które przekierowują porty i zapisują nasze bieżące IP oraz wystawiają Home Assistant na zewnątrz.

Promuję tematy:
21.06.2026 Zegar NTP na Waveshare ESP32-S3 4.2" RLCD - open source z RTC, MP3, WWW i oszczędzaniem energii
21.04.2026 ChatGPT Images 2.0 - potrafi tworzyć nawet całe czasopisma
19.02.2026 OpenClaw w robotyce czyli czas autonomicznych robotów - wizja przyszłości SkyNetu w formie felietonu
19.02.2026 Humanoidalne roboty z okazji Nowego Roku Chińskiego a niepokój o przyszłość.
13.02.2026 GPT-5.3 Codex i Opus 4.6 – wpływ nowych modeli AI na rynek pracy i automatyzację
#9 20549632 21 Kwi 2023 13:11

Konto nie istnieje Konto nie istnieje

Poziom 1

Post #9
20549632 21 Kwi 2023 13:11

Cytat:
Można skorzystać z serwisów, które przekierowują porty i zapisują nasze bieżące IP oraz wystawiają Home Assistant na zewnątrz.

O ile otwarcie odpowiednich portów na domowym routerze będzie możliwe i wykonalne przez Jana Kowalskiego - 99% procent populacji to nawet nie wie, co to są te porty i dlaczego może być to niebezpieczne.

Dodano po 1 [godziny] 1 [minuty]:

Cytat:
Czekam na rozwiązanie z rozpoznawaniem mowy, można użyć Whisper!

Z tym też byłbym ostrożny. Są już dostępne aplikacje (na bazie tzw. AI), które potrafią gadać głosem wybranej osoby, na podstawie próbek zebranych np. telefonicznie.
#10 20549746 21 Kwi 2023 13:24

czareqpl czareqpl

Poziom 33

Posty: 1955

Pomógł: 196

Ocena: 580
Pomocny post? (0)

Post #10
20549746 21 Kwi 2023 13:24

Platforma Microsoft Azure dostarcza funkcje rozpoznawania mowy do tekstu. Jest proste API dla Pythona. Kiedyś się tym bawiłem aby z PC dyktować treść SMS'a do modułu GSM.

Promuję tematy:
16.11.2017 Urządzenie do pomiaru sprawności przetwornic DC/DC oraz pomiaru warunków
01.09.2017 Inżynierski dobór filtrowania w torach zasilania
29.08.2017 Moduł Ethernet do instalacji inteligentnego budynku ATMega32 &ENC28J60
29.08.2017 Telefon własnej roboty oparty na STM32, FT811 oraz Raspberry Pi
#11 20549957 21 Kwi 2023 16:11

ADI-mistrzu ADI-mistrzu

Poziom 30

Posty: 2261

Pomógł: 37

Ocena: 308
Pomocny post? (0)

Post #11
20549957 21 Kwi 2023 16:11

khoam napisał:
Bardzo w to wątpię. Już dzisiaj rozwiązania typu HA w wersji "chmurowej" oferują większą funkcjonalność niż te same, w wersji "domowej" bez dostępu do netu.

Sam uruchomiłem rozpoznawanie Polskiej mowy na MCU lokalnie bez dostępu do internetu, dowolne komendy, dowolny wakeup word.
To co udało mi się uruchomić obecnie max to rozpoznawanie 4 języków równocześnie.

Promuję tematy:
27.01.2023 Auta elektryczne czy spalinowe? Analiza
03.06.2022 Mochabin-5G - 5-portowy router gigabitowy oparty na Armada 7040
19.05.2022 Adapter programatorów JTAG/SWD z regulacją napięcia i UART
09.03.2020 Challange "Pokonać piekło" - czyli rozwiązania dla sondy Wenus
#12 20549960 21 Kwi 2023 16:14

Konto nie istnieje Konto nie istnieje

Poziom 1

Post #12
20549960 21 Kwi 2023 16:14

@ADI-mistrzu Mam na myśli rozwiązania komercyjne.
#13 20550204 21 Kwi 2023 20:15

krzbor krzbor

Poziom 29

Posty: 1778

Pomógł: 41

Ocena: 1067
Pomocny post? (0)

Post #13
20550204 21 Kwi 2023 20:15

ADI-mistrzu napisał:

khoam napisał:
Bardzo w to wątpię. Już dzisiaj rozwiązania typu HA w wersji "chmurowej" oferują większą funkcjonalność niż te same, w wersji "domowej" bez dostępu do netu.

Sam uruchomiłem rozpoznawanie Polskiej mowy na MCU lokalnie bez dostępu do internetu, dowolne komendy, dowolny wakeup word.
To co udało mi się uruchomić obecnie max to rozpoznawanie 4 języków równocześnie.

Możesz opisać to rozwiązanie? Jestem zainteresowany głosowym sterowaniem IOT.
Opis @p.kaczmarek2 jest bardzo obiecujący. Gdyby dodać Whisper i dodatkowo komendę wywołującą (chodzi o to, aby w pełni kontrolować, co wychodzi w sieć, a co nie), to by było całkiem obiecujące rozwiązanie. Rozwiązanie offline będą miały jednak zawsze przewagę szybkości.

Promuję tematy:
21.04.2025 HeishaMon – sterowanie pompami ciepła Panasonic
12.04.2025 Zamiana baterii CR 2025 na CR 2032 w pilocie Skoda
26.11.2024 Podłączenie rekuperatora do Home Assistant poprzez RS485
30.03.2024 Sterownik 8 kanałowy sterowany poprzez Ethernet
09.03.2024 „Detektor przełożonego” - inna wersja
#14 20550253 21 Kwi 2023 20:37

Konto nie istnieje Konto nie istnieje

Poziom 1

Post #14
20550253 21 Kwi 2023 20:37

@krzbor Słyszałeś o ESP-Skainet? Może pracować w trybie offline. Link
#15 20550346 21 Kwi 2023 21:39

krzbor krzbor

Poziom 29

Posty: 1778

Pomógł: 41

Ocena: 1067
Pomocny post? (0)

Post #15
20550346 21 Kwi 2023 21:39

Wygląda ciekawie, ale z tego co przeczytałem, rozpoznaje chiński i angielski. Mi zależy na języku polskim.
Znalazłem coś takiego Vosk. Czy ktoś tego używał?

Promuję tematy:
21.04.2025 HeishaMon – sterowanie pompami ciepła Panasonic
12.04.2025 Zamiana baterii CR 2025 na CR 2032 w pilocie Skoda
26.11.2024 Podłączenie rekuperatora do Home Assistant poprzez RS485
30.03.2024 Sterownik 8 kanałowy sterowany poprzez Ethernet
09.03.2024 „Detektor przełożonego” - inna wersja
#16 20550434 21 Kwi 2023 23:08

rafels rafels

Poziom 26

Posty: 721

Pomógł: 69

Ocena: 166
Pomocny post? (+1)

Post #16
20550434 21 Kwi 2023 23:08

Używałem Vosk, to nic innego jak wielojęzykowe API do Kaldi. Bardzo wygodne i łatwe w użyciu narzędzie, używałem pythonowej wersji. Do działania wymaga modeli przygotowanych we frameworku ASR Kaldi. Nie wiem czy coś się zmieniło obecnie, ale niestety jeszcze rok temu nie były dostępne żadne modele akustyczne dla języka polskiego na stronach Vosk. Można poszukać polskich modeli udostępnionych przez Clarin.
Można też wytrenować polski model samodzielnie, ale wymaga to sporo pracy poznawczej, dużej ilości otagowanych nagrań i sporo zasobów obliczeniowych, więc na start to odpada.
Sam rozwijałem aplikację w CPP na bazie Kaldi i do tego polskie modele w ramach prac badawczo rozwojowych w firmie w której pracowałem. A hobbystycznie marzyły mi się właśnie małe urządzenia sterowane głosowo offline. Robiłem więc eksperymenty na raspberry. Poczynając od Pi 0 (obecnie już Vosk nie jet kompilowany na tę architekturę) ale aż do Pi 3 nie dawało się przetwarzać swobodnej mowy w real time. Da się przetwarzać zapisane sample, ale sygnału z mikrofonu już nie. Niewielkie modele języka angielskiego jeszcze na pi 3 jakoś w realtime działały, ale z bardzo ograniczoną gramatyką, jedynie do zastosowań command and controll. Na Pi 4 się już w realtome da. Testowałem nawet specjalnie odchudzone modele gramatyki FST pod kątem słabszych malin, które miały rozpoznawać jedynie kilkanaście komend w odróżnieniu do kilkudziesiędziotysięcznych modeli nGramowych, bez rezultatu. Robiłem odchudzone modele akustyczne zmniejszając wymiary sieci i godząc sie na większy współczynnik błędów, ale także to nie pomagało. Jak wyszła jakiś czas temu Pi zero 2 to specjalnie ją kupiłem, czy choć najprostsze polskie modele będą przetwarzane w realtime, ale niestety nie były. Także na razie porzuciłam temat małych urządzeń sterowanych głosowo. Choć mam na razie uśpiony od jakiegoś czasu pomysł postawić na domowej malinie Pi 4 serwer Kaldi i stermować do tego audio z mikrofonów na esp, tak żeby móc np. sterować HA które tam pracuje. Wiem, wszystko da się bez problemu zrobić chmurowo, ale nie o to chodzi 😃

Z ciekawostek to robiłem też eksperymenty łącząc już pełny obszerny model ASR Kaldi z framerowkiem NLP Rasa. Ale to już na PC.
Jak ktoś się chce pobawić w treningi modeli językowych to polecam Rasa. Łatwo można zacząć zabawę w NLP i szybko zacząć tworzyć proste dedykowane boty, w czatu tekstowego. Oczywiście nawet nie leżące obok modeli GPT, ale zabawa fajna i bo uzyskiwane efekty mogą zaskoczyć.
#17 20550438 21 Kwi 2023 23:15

krzbor krzbor

Poziom 29

Posty: 1778

Pomógł: 41

Ocena: 1067
Pomocny post? (0)

Post #17
20550438 21 Kwi 2023 23:15

Dziękuję za cenne informacje. Napisałem o VOSK bo ma wiele modeli językowych Link w tym polski: vosk-model-small-pl-0.22. Pytanie tylko, czy model, który ma 50MB do czegoś się nadaje? Czy np. dźwięk z mikrofonu elektretowego z odległości np. 3m będzie rozpoznawany?

Promuję tematy:
21.04.2025 HeishaMon – sterowanie pompami ciepła Panasonic
12.04.2025 Zamiana baterii CR 2025 na CR 2032 w pilocie Skoda
26.11.2024 Podłączenie rekuperatora do Home Assistant poprzez RS485
30.03.2024 Sterownik 8 kanałowy sterowany poprzez Ethernet
09.03.2024 „Detektor przełożonego” - inna wersja
#18 20550456 21 Kwi 2023 23:36

rafels rafels

Poziom 26

Posty: 721

Pomógł: 69

Ocena: 166
Pomocny post? (+1)

Post #18
20550456 21 Kwi 2023 23:36

Oo, fajnie że ktoś dodał model polski. Chętnie go kiedyś przetestuję. Ogólnie z rozpoznawaniem jest różnie, dużo zależy od danych treningowych i ich warunków akustycznych, zakłóceń, pogłosu. Mikrofon dookulny z 3m może nie być rozpoznawany najlepiej. Już lepiej jakiś kierunkowy a najlepiej coś w stylu Respiker.
Najlepiej sam przetestuj ten model, na githubie vosk api jest folder z example. Jest gotowy przykład z użyciem mikrofonu w pythonie. Bardzo łatwe.
Te modele składają się z dwóch części. Na wejściu model akustyczny AM, jest to sieć neuronowa i z niej wychodzą fonemy kontekstowe, niezrozumiałe wektory liczb. Trafia to modelu gramatyki HCLG, jest to taki ogromny graf skierowany FST. I z tego dopiero wychodzi mowa, ale też zapisana w postaci grafu, dopiero najlepsza ścieżka (najbardziej prawdopodobna) w tym grafie będzie zbiorem wyrazów zrozumiałych dla człowieka.
Mając dobrze wytrenowany AM można łatwo tworzyć i podmieniać modele gramatyki, dostosowując je do swojej dziedziny i swoich potrzeb oraz pożądanego zbioru słów. Podstawy tego są przystępnie opisane na stronach Vosk a bardziej obszernie na stronach Kaldi.
#19 20550651 22 Kwi 2023 09:52

gulson gulson

Administrator Systemowy

Posty: 29428

Pomógł: 150

Ocena: 6085
Pomocny post? (+1)

Post #19
20550651 22 Kwi 2023 09:52

A tutaj darmowa biblioteka do generowania mowy polskiej i dźwięków:
https://github.com/suno-ai/bark
Bark może generować bardzo realistyczne, wielojęzyczne mowy oraz inne dźwięki - w tym muzykę, szumy w tle i proste efekty dźwiękowe. Model może także generować komunikaty niewerbalne, takie jak śmiech, westchnienia i płacz.

Promuję tematy:
21.06.2026 Zegar NTP na Waveshare ESP32-S3 4.2" RLCD - open source z RTC, MP3, WWW i oszczędzaniem energii
21.04.2026 ChatGPT Images 2.0 - potrafi tworzyć nawet całe czasopisma
19.02.2026 OpenClaw w robotyce czyli czas autonomicznych robotów - wizja przyszłości SkyNetu w formie felietonu
19.02.2026 Humanoidalne roboty z okazji Nowego Roku Chińskiego a niepokój o przyszłość.
13.02.2026 GPT-5.3 Codex i Opus 4.6 – wpływ nowych modeli AI na rynek pracy i automatyzację
#20 20551312 22 Kwi 2023 20:58

ADI-mistrzu ADI-mistrzu

Poziom 30

Posty: 2261

Pomógł: 37

Ocena: 308
Pomocny post? (0)

Post #20
20551312 22 Kwi 2023 20:58

@krzbor, oczytaj o tym i na jakim silniku to chodzi:
https://www.nxp.com/design/designs/nxp-edgere...tion-for-local-voice-control:MCU-LOCAL2-VOICE

Niebawem także te będą wspierać język Polski:
https://www.nxp.com/applications/enabling-technologies/voice-processing:VOICE

Promuję tematy:
27.01.2023 Auta elektryczne czy spalinowe? Analiza
03.06.2022 Mochabin-5G - 5-portowy router gigabitowy oparty na Armada 7040
19.05.2022 Adapter programatorów JTAG/SWD z regulacją napięcia i UART
09.03.2020 Challange "Pokonać piekło" - czyli rozwiązania dla sondy Wenus
#21 20551534 22 Kwi 2023 23:47

gulson gulson

Administrator Systemowy

Posty: 29428

Pomógł: 150

Ocena: 6085
Pomocny post? (+1)

Post #21
20551534 22 Kwi 2023 23:47

A tutaj audio wygenerowane przez Bark.
Niestety jak nie ma się właściwego GPU, to trwało to 30min.
Przy dobrym GPU praktycznie generuje mowę od razu.

Załączniki:

audio.wav (1.35 MB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
21.06.2026 Zegar NTP na Waveshare ESP32-S3 4.2" RLCD - open source z RTC, MP3, WWW i oszczędzaniem energii
21.04.2026 ChatGPT Images 2.0 - potrafi tworzyć nawet całe czasopisma
19.02.2026 OpenClaw w robotyce czyli czas autonomicznych robotów - wizja przyszłości SkyNetu w formie felietonu
19.02.2026 Humanoidalne roboty z okazji Nowego Roku Chińskiego a niepokój o przyszłość.
13.02.2026 GPT-5.3 Codex i Opus 4.6 – wpływ nowych modeli AI na rynek pracy i automatyzację
#22 20552219 23 Kwi 2023 15:21

dawid123123123 dawid123123123

Poziom 9

Posty: 217

Pomógł: 3

Ocena: 9
Pomocny post? (0)

Post #22
20552219 23 Kwi 2023 15:21

pomysł ciekawy ale dla przeciętnego kowalskiego nie do wykonania
#23 20558746 28 Kwi 2023 11:45

gulson gulson

Administrator Systemowy

Posty: 29428

Pomógł: 150

Ocena: 6085
Pomocny post? (+2)

Post #23
20558746 28 Kwi 2023 11:45

Czytany artykuł? Czemu nie. Posłuchajcie.

Załączniki:

J7YR5iRYFIbSy52YOeKG.mp3 (369.59 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
21.06.2026 Zegar NTP na Waveshare ESP32-S3 4.2" RLCD - open source z RTC, MP3, WWW i oszczędzaniem energii
21.04.2026 ChatGPT Images 2.0 - potrafi tworzyć nawet całe czasopisma
19.02.2026 OpenClaw w robotyce czyli czas autonomicznych robotów - wizja przyszłości SkyNetu w formie felietonu
19.02.2026 Humanoidalne roboty z okazji Nowego Roku Chińskiego a niepokój o przyszłość.
13.02.2026 GPT-5.3 Codex i Opus 4.6 – wpływ nowych modeli AI na rynek pracy i automatyzację
#24 20580487 15 Maj 2023 00:51

NorthernMan54 NorthernMan54

Poziom 6

Posty: 6

Ocena: 3
» | Pomocny post? (0)

Post #24
20580487 15 Maj 2023 00:51

>>20548901

Dla osób, które chcą tego spróbować i są użytkownikami node-red, odtworzyłem to za pomocą node-red i przepływu https://flows.nodered.org/node/node-red-contrib-custom-chatgpt.

Będziesz musiał podać API_KEY i organizację.

Teraz, aby zobaczyć, co jest z tym możliwe.

Załączniki:

flows.json.zip (3.97 KB) Musisz być zalogowany, aby pobrać ten załącznik.

Promuję tematy:
20.01.2023 [WB2S] Globe 4" - zestaw Oświetlenia Wpuszczanego LED RGBCW z Amazon
#25 20580571 15 Maj 2023 08:21

p.kaczmarek2 p.kaczmarek2

Moderator Smart Home

Posty: 14705

Pomógł: 658

Ocena: 12759
» | Autor tematu Pomocny post? (0)

Post #25
20580571 15 Maj 2023 08:21

Dziękuję! Nie testowałem jeszcze twojego skryptu, ale wygląda interesująco. Mam tylko podstawową wiedzę na temat Node-Red, ale spróbuję.

Być może wkrótce utworzę repozytorium Github dla tego szybkiego mini projektu, czy mogę tam również dołączyć twoją wersję?

Muszę też poeksperymentować z dodatkową kontrolą jasności....

PS: @NorthernMan54 czy twój kod obsługuje skrajne przypadki, w których ChatGPT odpowiada komunikatem zawierającym KOD, ale później z tekstem bez prefiksu SAY? Zdarzyło mi się to kilka razy, a mój kod C # analizuje to poprawnie.

Tworzę pierwsze na świecie oprogramowanie open source przeznaczone dla platform BK7231, XR809, BL602, W600, W800, LN882H, ECR, TRS, RTL, jak również ESP8266 i ESP32 używanych w różnych urządzeniach IoT, pozwalające uwolnić je od serwerów producenta, od śledzenia, dowolnie modyfikować i sparować z Home Assistant.
Dodatkowo publikuję różnorodne materiały, często tutoriale i praktyczne demonstracje.
Jeśli podoba Ci się moja twórczość i w czymś Ci pomogłem, to rozważ wsparcie mnie tutaj: https://www.paypal.com/paypalme/openshwprojects
Mój Github: https://github.com/openshwprojects
Mój tutorial PIC18F SDCC: https://www.elektroda.pl/rtvforum/topic3635522.html
Pracuję na stacji hot air SUGON 8630 Pro od Katemedia

Pomogłem? Kup mi kawę.

Promuję tematy:
12.07.2026 Przemysłowy moduł z Wi-Fi, LAN, PoE, RS485, wejściami i przekaźnikami - ESP32-S3-POE-ETH-8DI-8RO - t
10.07.2026 Wnętrze i zmiana firmware przekaźnika/licznika energii na szynę DIN GBDQA 63VA 16A
09.07.2026 Moduł przekaźnika sterowanego radiowo 433 MHz i przez Wi-Fi - jak sparować pilota? Zmiana firmware
08.07.2026 Wnętrze elektronicznego przekaźnika czasowego RTx-132 Made In Poland (MCY74645?)
06.07.2026 Kogo firmy szukają, a kto szuka pracy? Analiza zapotrzebowania w branży IT (Lipiec 2026)
#26 20581202 15 Maj 2023 16:00

NorthernMan54 NorthernMan54

Poziom 6

Posty: 6

Ocena: 3
» | Pomocny post? (0)

Post #26
20581202 15 Maj 2023 16:00

Cytat:
Być może wkrótce utworzę repozytorium Github dla tego szybkiego mini projektu, czy mogę tam również dołączyć twoją wersję?

Tak, możesz, to było tylko trochę zabawy, aby zobaczyć, jak działa koncepcja. Moim następnym krokiem jest umożliwienie mu kontrolowania mojej konfiguracji Homebridge.

Cytat:
PS: @NorthernMan54 czy twój kod obsługuje przypadki skrajne, w których ChatGPT odpowiada komunikatem zawierającym KOD, ale później z tekstem bez prefiksu SAY? Zdarzyło mi się to kilka razy, a mój kod C # analizuje to poprawnie.

Odkryłem, że nigdy nie używał frazy SAY, ale był zgodny z DO. Moją logiką było podzielenie wyniku na linie oparte na `\r`, a wszystkie linie zaczynające się od DO były wysyłane do przepływu automatyki domowej, a wszystko inne wysyłane na inne wyjście.

Promuję tematy:
20.01.2023 [WB2S] Globe 4" - zestaw Oświetlenia Wpuszczanego LED RGBCW z Amazon
Zarejestruj konto, Zaloguj się i bądź aktywny na forum, a wtedy reklamy nie będą się pojawiać. Dołącz do dyskusji i otrzymaj punkty za rejestrację oraz odpowiedzi.

Zainstaluj aplikację Elektroda

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas Preferuj w

Zgłoś naruszenie prawa

Podsumowanie tematu

✨ W dyskusji poruszono temat wykorzystania API OpenAI do stworzenia inteligentnego asystenta domowego, który potrafi kontrolować oświetlenie i inne urządzenia w domu. Uczestnicy wymieniają się pomysłami na implementację, w tym użycie rozpoznawania mowy, z naciskiem na lokalne rozwiązania, takie jak Whisper i Vosk. Zwracają uwagę na kwestie subskrypcji i inwigilacji, a także na różnice między systemami chmurowymi a lokalnymi. Pojawiają się również sugestie dotyczące sprzętu, takiego jak Raspberry Pi oraz platformy Microsoft Azure. Uczestnicy dzielą się doświadczeniami z różnymi modelami rozpoznawania mowy i generowania dźwięku, w tym Bark i ESP-Skainet.
Podsumowanie wygenerowane przez AI na podstawie treści dyskusji.

AI w obsłudze klienta - czy to dobry pomysł? Setki kont przejętych na Instagramie
10 Cze 2026 08:19 (6)
Kolejne firmy prześcigają się we wdrażaniu AI, gdzie tylko się da. Również sztuczna inteligencja zastępuje ludzi na helpdesku. W teorii ma to przyspieszać procesy i obniżać koszty. Problem pojawia się wtedy, gdy chatbot dostaje uprawnienia do wykonywania operacji związanych z bezpieczeństwem kont użytkowników. Właśnie taki przypadek miał miejsce na Instagramie. Jak opisuje Niebezpiecznik, asystent... [Czytaj dalej]
Anthropic przedstawia Claude Opus 4.8 - ewolucja w stronę bardziej złożonych zadań
30 Maj 2026 09:09 (0)
Firma Anthropic zaprezentowała nową wersję swojego flagowego modelu AI - Claude Opus 4.8. Aktualizacja przynosi ulepszenia w zakresie programowania, zadań agentowych oraz pracy z długimi procesami, a model dostępny jest w tej samej cenie co jego poprzednik. Wraz z premierą debiutują nowe funkcje, z których najciekawszą jest funkcja "effort control" na platformie claude.ai. Użytkownicy mogą teraz decydować,... [Czytaj dalej]
Zawieszona współpraca Blendera z Anthropic, czyli o społecznym sprzeciwie wobec technologii AI
10 Maj 2026 12:32 (7)
Fundacja stojąca za projektem Blender ogłosiła zmianę zasad współpracy z firmą Anthropic po gwałtownej reakcji społeczności użytkowników. Jeszcze niedawno ogłoszono, że twórca systemu Claude dołączy do Blender Development Fund jako Corporate Patron i będzie przekazywać około 240 tys. euro rocznie na rozwój projektu. Decyzja szybko wywołała dyskusję wśród artystów i deweloperów korzystających z programu... [Czytaj dalej]
Jakie AI do SVG w 2026: oktogram w okręgu i 50% mniejsze oktogramy?
05 Maj 2026 18:42 (1)
Dzień dobry, chcę tworzyć somplikowane i złożone geometrie matematyczne, na przykład oktogram w oktogramie wpisany w okrąg w SVG, ale gdy to wpisuję w Chat-gbt, on się crashuje. Czy są w 2026 jakieś programy czy ai do tworzenia kombinacji geometrycznych na bazie słów, np. stwórz oktogram, a do każdego zewnętrznego wierzchołka oktogramu dodaj 50% mniejszy oktogram. Nic takiego nie znalazłem, co działałoby... [Czytaj dalej]
Praktyczne testy Gemma 4 i porównanie z Gemini 2.5 - tagowanie obrazków i OCR
01 Maj 2026 09:19 (0)
Czy współczesne modele LLM uruchamiane lokalnie, na starym laptopie gamingowym, są w stanie sensownie otagować zdjęcia? Czy współczesne modele nadają się do OCR i poprawnie rozpoznają układy elektroniczne? Zapraszam na Elektrodowy test sztucznej inteligencji, tym razem wzbogacony o uruchamiany lokalnie model Gemma 4 oraz o płatne modele gemini-2.5-pro i gemini-2.5-flash uruchamiane przez API. Sprawdzę... [Czytaj dalej]

REKLAMA