Mam pewien problem z cepstrum rzeczywistym, czyli danym wzorem:
c(n)=IFFT(log10(abs(FFT(x(n))))
mianowicie, chodzi o poszukiwanie wysokości mowy (parametr pitch). Postępuje w matlabie w sposób następujący:
-wczytywanie wave'a
- obliczenie współczynników filtra (lpc)
- filtracja sygnału mowy przez filtr FIR o współczynnikach otrzymanych z lpc()
- wymnożenie z oknem Hamminga
- dodanie zer by otrzymać sygnał długości 2^N
- obliczenie cepstrum w zadanym przedziale częstotliwości (50-400 Hz)
To wszystko dla cyklicznie fragmentów o długości dl.
I tutaj niestety mam problem z wyznaczeniem czy dany fragment sygnału jest dźwięczny/bezdźwięczny. Przekopałem dużą ilość materiałów na sieci i jedyne co znalazłem, to informacja, że sygnał jest dźwięczny gdy pitch przekroczy próg 0.85. Nie jestem pewien co to oznacza - w moim przypadku sygnał testowy NIGDY nie osiąga tak dużej wartości pitch - metoda autokorelacji natomiast wyznacza dosyć poprawnie dźwięczność/bezdźwięczność. Również odniesienie do składowej w punkcie zero nie daje zadowalających efektów. Byłbym wdzięczny za pomoc bądź wskazanie jakiegoś źródła które by to wyjaśniło.
c(n)=IFFT(log10(abs(FFT(x(n))))
mianowicie, chodzi o poszukiwanie wysokości mowy (parametr pitch). Postępuje w matlabie w sposób następujący:
-wczytywanie wave'a
- obliczenie współczynników filtra (lpc)
- filtracja sygnału mowy przez filtr FIR o współczynnikach otrzymanych z lpc()
- wymnożenie z oknem Hamminga
- dodanie zer by otrzymać sygnał długości 2^N
- obliczenie cepstrum w zadanym przedziale częstotliwości (50-400 Hz)
To wszystko dla cyklicznie fragmentów o długości dl.
I tutaj niestety mam problem z wyznaczeniem czy dany fragment sygnału jest dźwięczny/bezdźwięczny. Przekopałem dużą ilość materiałów na sieci i jedyne co znalazłem, to informacja, że sygnał jest dźwięczny gdy pitch przekroczy próg 0.85. Nie jestem pewien co to oznacza - w moim przypadku sygnał testowy NIGDY nie osiąga tak dużej wartości pitch - metoda autokorelacji natomiast wyznacza dosyć poprawnie dźwięczność/bezdźwięczność. Również odniesienie do składowej w punkcie zero nie daje zadowalających efektów. Byłbym wdzięczny za pomoc bądź wskazanie jakiegoś źródła które by to wyjaśniło.
