logo elektroda
logo elektroda
X
logo elektroda
REKLAMA
REKLAMA
Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Cepstrum a współczynik icepstralne

djsmol 05 Sie 2009 08:52 2238 6
REKLAMA
  • #1 6858528
    djsmol
    Poziom 11  
    Witam. Kończe pracę dyplomową magisterską (rozpoznawanie izolowanych słów/komunikatów za pomocą sieci neuronowej zrealizowanej na procesorze DSP (płytka prototypowa na DSK 6416)). Najśmieszniejsze jest to, że wszystko działa. 3 komunikaty są rozpoznawane (Światło, Załącz, Wyłacz). Obsługa AIC i całej reszty gotowa(a to było chyba najgorsze w tym wszystkim). A teraz trzeba to opisać:P

    Działa to tak, że gotowy sygnał (8kHz, 16bit, mono) dzielę na paczki 30ms zachodzące po 10ms. Standardowo okienkowanie, usuwanie wartości średniej. I teraz analiza cepstralna. Chodzi mi o róznicę miedzy cepstrum a współczynikami cepstralnymi. Bo samo cepstrum to może być uzyte do usuwania echa. A licze u siebie współczynniki cepstralne z kazdej paczki (dokładnie 12). Obliczenia metoda nie poprzez liczenie podwójnego FFT tylko przez wyliczenia współczynników filtru dla LPC-10. Nastepnie mam mojego pomysłu procedurę która kompresuje wszystko do 10 paczek po 12 współczynników i to na sieć neuronową

    I co mi mówią te współczynniki?? Zauważyłem np, że z przebiegu zmian współczynnika 3 i 5 bodajże można wywnioskowac, czy wypowiedź została wypowiedziana przez kobietę czy meżczyznę ale odbiegam od tematu teraz:P
  • REKLAMA
  • #2 6859088
    Aro_
    Poziom 15  
    Cepstrum zawiera kompletną informację o sygnale, a współczynniki zawierają tylko wybrane informacje. Przynajmniej tak mi się wydaje, gdyż analiza nieliniowa jest dla mnie raczej obca:)
    Współczynniki cepstralne możesz obliczać przez obliczenie FFT zlogarytmowanego modułu widma sygnału, czyli powstaje właśnie cepstrum. Żeby usunąć echo potrzebne jest całe widmo widma, gdyż sygnał zostaje ponownie odtworzony, natomiast do rozpoznawania mowy wystarczą tylko niektóre prążki (współczynniki) zawierające charakterystyczne przebiegi dla traktu głosowego. Wyznaczenie tych kilku współczynników jest zapewne szybsze niż wyznaczanie całego cepstrum.
    Prosta analogia, możesz wyznaczyć DFT sygnału, ale jeśli potrzebujesz tylko niektórych informacji o sygnale, to zamiast wyznaczać całe widmo, możesz skorelować tylko niektóre sinusoidy z sygnałem.
    W ten sposób ja to rozumiem, ale na 100% pewności nie mam, że tak to wygląda.
    Hmm, mówisz że to działa bez problemu, chyba zainteresuję się głębiej tym tematem:)
  • REKLAMA
  • #3 6859538
    djsmol
    Poziom 11  
    Ja to już mam napisane jako program na procka DSP i działa to rozpoznawanie. Robie to wyznaczajac współczyniki filtru LPC, dokłądnie 10 z równania macierzowego Yule'a(tak jak kodowanie LPC-10) i na tej podstawie przez odpowiednie lczenie sum dostaję współczynniki cepstalne.

    To czekam na pewną informację o tym cepstrum:)

    p.s.
    W razie czego służę pomocą, bo też dużo szukałem na ten temat i trzeba sie było przedzierać przez bagno i niejako wiem już o co chodzi:)
  • #4 6859939
    Aro_
    Poziom 15  
    A znasz może jakąś dobrą polską literaturę o sieciach neuronowych, przetwarzaniu nieliniowym? Najlepiej gdyby nie było za dużo matematyki, coś na wzór książki Cyfrowe przetwarzanie sygnałów Stevena W. Smitha?

    djsmol napisał:
    To czekam na pewną informację o tym cepstrum:)

    Jaką informację?
  • REKLAMA
  • #5 6860168
    djsmol
    Poziom 11  
    Literatury to nie umiem traz za dużo powiedzieć. Raczej to co ze studiów wyniosłem (bo mnie to tam zainteresowało i najpierw był projekt w Matlabie rozpoznawanie pisma odręcznego no a potem na dyplom musiało być ambitniej więc poszło rozpoznawanie mowy:P).

    A co do pewnych informacji to właśnie czemu odpowiadają i jak interpretować współczynnki cepstralne. No bo muszę jakosnapisać w pracy dlaczego i jak to się dzieje:P
  • #6 6860601
    Aro_
    Poziom 15  
    Można napisać: "Nie ma potrzeby zajmować się interpretacją współczynników cepstralnych, gdyż do tego celu zastosowano siec neuronową. W procesie uczenia się, siec sama znajduje związek między określonymi współczynnikami a wypowiadanym słowem.":D
    Jedyne co mogę doradzić to książka Tomasza P. Zielińskiego Cyfrowe przetwarzanie sygnałów" Jest tam opisany proces kodowania LPC-10, w tym rozpoznawanie mowy w bardzo uproszczony sposób. Trochę o tych nieszczęsnych współczynnikach jest:)
  • REKLAMA
  • #7 6860640
    djsmol
    Poziom 11  
    Hehe - też tak myślałem na początku:P No bo sieć rzeczywiście sama generalizuje problem. Chce prostego stwierdzenia typu że pochodną drogi po czasie liczymy i dostajemy prędkość. A do czego nam ta obliczona prędkość jest to już w temacie pracy widnieje.

    Do książki na pewno zajrzę - będzie co wpisać do literatury, bo jak na razie to głównym źródłem jest internet i ściągane e-booki (nie zawsze chyba legalnie ale inaczej ciężko do czegoś się dokopać:/).
REKLAMA