Elektroda.pl
Elektroda.pl
X
Proszę, dodaj wyjątek dla www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

Rozpoznawanie mowy niezależnie od mówcy

18 Lis 2005 12:46 7827 14
  • Poziom 11  
    Witam wszystkich :)

    Piszę teraz pracę dyplomową. To ma być swego rodzaju program do terapii wad wymowy. Potrzebuję materiałów jak rozpoznać mowe niezależnie od mówcy. Dla jednego mówcy nie jest to problem, jednak klopoty pojawiają sie jeśli jest jedna baza a wielu użytkowników. Drugim problemem jest to ze trzeba rozpoznawać poszczególne izolowane głoski. Z tego co mi wiadomo to trudniej jest rozpoznać coś co trwa bardzo krótko np. literka p. jesli ktos wie gdzie to jest dobrze opisane lub jak to zrobic to prosze o pomoc. Za każdą informację, jakieś linki, porady lub sugestie literatury bede niezmiernie wdzięczny.
  • Poziom 13  
    Z tego co pamietam to w profesjonalnych zastosowaniach wkorzystuje sie zestaw cech mel cepstralnych (mel frequency cepstral coefficient (MFCC) ), proponuje szukac czegos w tym kierunku
  • Poziom 13  
    Wydaję mi się, że podstawą rozpoznawania mowy powinna być charakterystyka traktu głosowego. Innymi słowy należałoby wyznaczyć współczynniki filtra traktu głosowego a następnie poddać je kwantyzacji wektorowej (przy dosyć dużej liczbie próbek). Kwantyzacja wektorowa ma to do siebie, że znajduje współczynniki, których błąd średniokwadratowy jest najmniejszy - z kolei cały zbiór współczynników można podzielić pod względem znaczenia (formantów).
    Mam u siebie książkę w której cos pisze na ten temat - niestety, nie zgłębiałem tajników rozpoznawania mowy:
    Sadaoki Furui "Digital speech processing, synthesis and recognition"
  • Poziom 16  
    Witam,

    Moznaby uzyc sieci neuronowej, mialem okazje uczestniczyc w wylkadach prof. Wilamowskiego na temat sieci neuronowych i on prowadzi m.in. badania nad rozpoznawaniem mowy z zastosowaniem tychze sieci z bardzo dobrymi wynikami.. z tego co opowiadal taka siec rozpoznaje 98% wypowiedzianych fraz/wypowiadanych nawet przez rozne osoby, potrafi rozpoznac rozmowce itp. Jesli piszesz prace dyplomowa to mozesz do niego napisac w tej sprawie.. Znajdziesz do niego maila na googlach.

    Pozdrawiam!
  • Poziom 13  
    notset napisał:
    Moznaby uzyc sieci neuronowej ...

    Sieci neuronowej albo ukrytego modelu Markowa, nie slyszalem zeby przy rozpoznawaniu mowy do klasyfikacji wykorzystywano cos innego. :-)

    Najpierw z sygnalu(mowy) trzeba wydobyc jakies cechy (tak jak pisalem wczesniej np. MFCC), a dopiero potem mozna sie zabrac za klasyfikator.

    btw: nauczenie tak duzej sieci neuronowej jaka powstanie w tym przypadku, bedzie wymagala naprawde duzej liczby przykladow uczacych :/

    a tak to robia profesjonalisci: http://cslu.cse.ogi.edu/ :-)
  • Poziom 17  
    Wiem, że istnieje książka "Sygnał mowy" Ryszarda Tadusiewicza. Widziałem ją także na necie zeskanowaną, ale to chyba jest nielegalne.

    pozdrawiam
    Grzegorz
  • Poziom 21  
    Nie bierz sobie do serca tego gadania o profesionalizmie. Jak do tej pory NIE istnieje taki peły i uniwersalny system. Wszyskie realizacje są okrojone, wyspecjalizowane i żadadna nie posiada 100% sprawności. Nie ma jednej najlepszej metody. Może uda się Tobie skontaktować z p. Jackiem Karpińskim (tak, tak, to ten od pierwszego minikomputera w Polsce i na świecie) Wiem że kilka lat temu pracował nad takim tematem, może się podzieli z Toba swoimi doświadczeniami (metoda była nowatorska)
  • Poziom 20  
    praw napisał:
    Wiem, że istnieje książka "Sygnał mowy" Ryszarda Tadusiewicza. Widziałem ją także na necie zeskanowaną, ale to chyba jest nielegalne.


    Książka jest jak najbardziel legalna! Jest udostępniana na stronach Biblioteki Głównej AGH jak i wiele innych trudno dostępnych i poszukiwanych starych skryptów (np. autorstwa prof. Giergla, pozdrowienia! :) ) http://winntbg.bg.agh.edu.pl/skrypty/0004/main.html

    Tak na marginesie: Czyżby autor pytania pisiał pracę dyplomową w Katedrze prof. Tadeusiewicza na AGH?? Bo temat mi się tak kojarzy i miasto pochodzenia też bliskie :) Jeżeli tak na pewno zna tę książkę!

    Pozdrawiam!
  • Poziom 11  
    Dzieki wszystkim za info
  • Poziom 10  
    Szukam ukadów automatycznego rozpoznawnia mowy, może któs może mi pomóc?
  • Poziom 28  
    Słuchaj, pisałem pracę magisterską z tematu "rozpoznawanie mowy niezależnie od mówcy". Polegało to na tym, że musiałem zaprogramować procesor DSP, przetwornik, do tego miałem podłączony mikrofon i musiało to rozpoznawać kilka wyrazów. Udało mi się rozpoznawać kilka cyfr z wydajnością jakieś 73% :) Jak chcesz i jeszcze to aktualne mogę ci podrzucić mnóstwo materiałów na temat tego jak to się robi itd. Algorytm jest bardzo skomplikowany a zupełna podstawa to FFT.
  • Poziom 1  
    Sytem rozpoznawania mowy niezależny od mówcy jest wdrażany w systemach telefonicznych przez firmę Primespeech. Na stronie www.primespeech.pl jest więcej informacji o rozpoznawaniu mowy. Są też podane telefony do zaimplementowanych systemów. Można za darmo zadzwonić i samemu sprawdzić jak działa ASR.
  • Poziom 28  
    Dokładnie. Wybieranie głosowe w telefonach też działa na tej zasadzie, z tym, że tam tak na prawdę niewiele słów się rozpoznaje. Np "mama" czy jakieś takie. Zależy ile system się "nauczy". Generalnie jeśli chcesz stworzyć jako taki system rozpoznawania mowy musisz mieć dużą bazę slów. Nagrane powinny być z odpowiednią jakością, ale to z kolei oznacza więcej pamięci i więcej męki procesora przy przetwarzaniu (więcej próbek do analiz ). Oznacza to, że każde słowo które chcesz rozpoznawać taki system powinien mieć (np. w jakiejś szybkiej pamięci flash albo najlepiej nieulotnej RAM) nagrane przez kilkanaście osób po klikanaście razy albo i więcej. Podstawa to duża ilość pamięci (tu nie mam na myśli wielkości rzędu KB tylko MB i GB) i szybki procek DSP (koniecznie DSP), który będzie umiał wybrać z wzorców zawartych w pamięci taki, który jest najbliższy do przed chwilą powiedzianego (i przetworzonego na zawartość cyfrową). Cały taki algorytm działa na zasadzie jakby "porównywania" słowa z wzorcami. Nie jest to zwykłe porównywania typu próbka-próbka bo tak się nie da. Za każdym razem działa szereg algorytmów przez który twoje słowo musi przejść. Przecież za każdym razem możesz dane słowo wypowiedzieć inaczej. Dla komputera to już będzie zupełnie inny zbiór bajtów reprezentujących cyfrowe próbki sygnału audio.

    Co najlepsze istnieją już algorytmy które wykorzystują rachunek prawdopodobieństwa (oczywiście ten bardziej zaawansowany:) ) i analizują nawet kontekst wypowiedzi. Sprawdzają czy np. można powiedzieć "idę do szkoły" albo "idę po szkoły" i potrafią to odróżnić. Wyobraź sobie ile może być w danym języku kombinacji ze słowem "idę": idę do sklepu, nie idę, idę do kościoła, idę szybko, idę przed siebie.... i tysiące innych. Niestety stworzenie takiego czegoś dla kilku języków to już zupełnie odjazd i bardzo wysoka szkoła jazdy.