Elektroda.pl
Elektroda.pl
X
Please add exception to AdBlock for elektroda.pl.
If you watch the ads, you support portal and users.

Jaka technika przetwarzania sygnału jest odpowiednia dla Twojego urządzenia?

ghost666 17 Dec 2022 14:54 405 1
Computer Controls
  • Jaka technika przetwarzania sygnału jest odpowiednia dla Twojego urządzenia?
    W coraz bardziej hałaśliwym świecie słyszenie może być trudne. Dotyczy to tak samo ludzi, jak i urządzeń elektronicznych, co stanowi szczególny problem, jeśli są zaprojektowane do przechwytywania naszych głosów lub reagowania na nie. Sygnały docierające do ich mikrofonów są mieszanką fonii, szumu tła i innych zakłóceń, takich jak pogłos wynikający z pomieszczenia. Oznacza to, że może to mieć negatywny wpływ na jakość i rozszyfrowanie rejestrowanej mowy, co prowadzi do słabej wydajności działania algorytmów jej rozpoznawania. Zrozumienie jej ma kluczowe znaczenie dla wielu gałęzi technologii, od telefonów, komputerów i systemów konferencyjnych po usługi transkrypcji, samochodowe mechanizmy informacyjno-rozrywkowe, pomoc domową i aparaty słuchowe. Przydatne mogą być techniki przetwarzania sygnału, takie jak formowanie wiązki i ślepa separacja źródła (BSS), ale mają one swoje zalety i wady. Więc, która technika jest najlepsza i do jakich zastosowań?

    Kształtowanie wiązki dźwięku jest jedną z najbardziej wszechstronnych metod wielomikrofonowych do uwydatniania określonego źródła w scenie akustycznej. Beamformery (układy formowania wiązki) można podzielić na dwa typy, w zależności od tego, jak działają — niezależne od danych lub adaptacyjne. Jedną z najprostszych postaci tych pierwszych jest generator opóźnień i sum. Sygnały mikrofonowe w nim są delegowane w czasie w celu skompensowania różnych długości ścieżek między źródłem docelowym a poszczególnymi mikrofonami. Oznacza to, że gdy sygnały są sumowane, ostateczne źródło pochodzące z określonego kierunku doświadczy spójnego łączenia. Oczekuje się też, że impulsy nadchodzące z innych ujęć będą w pewnym stopniu redukowane na skutek destrukcyjnego kumulowania (sumowania) sygnałów.

    Jednak w wielu zastosowaniach konsumenckich audio tego rodzaju, kształtowniki wiązki przyniosą niewielkie korzyści, ponieważ wymagają, aby długość fali sygnału była mała w porównaniu z rozmiarem zestawu mikrofonów. Sprawdzają się dobrze w najwyższej klasy systemach konferencyjnych z macierzami mikrofonów o średnicy 1 m. Te zestawy zawierają ich setki, aby pokryć szeroki zakres dynamiczny różnych długości fal. Jednak systemy te są drogie w produkcji i dlatego nadają się tylko na rynek biznesowy.

    Z drugiej strony urządzenia konsumenckie zwykle mają tylko kilka mikrofonów w małej matrycy, więc generatory opóźnień i sumowanie wiązki ma istotne problemy. Jako że duże długości fal ludzkiej mowy docierają do małej matrycy mikrofonów w zbliżonym momencie. Na przykład generator opóźniający i sumujący wiązki o rozmiarach normalnego aparatu słuchowego nie może zapewnić żadnej kierunkowej dyskryminacji przy niskich częstotliwościach. Z kolei przy wysokich jest ograniczony w swojej kierunkowości do poziomu przód/tył. Innym mankamentem jest to, że dźwięk nie porusza się po liniach prostych — dane sygnały mają wiele różnych ścieżek do mikrofonów, z których każda ma inny poziom odbicia i dyfrakcji. Oznacza to, że generatory opóźnienia i sumatory wiązek nie są zbyt skuteczne w wydobywaniu interesującego źródła z całej sceny akustycznej. Jednak z drugiej strony, są bardzo łatwe do wdrożenia i dają pewne niewielkie korzyści, dlatego często były używane w starszych urządzeniach.

    Jednym z adaptacyjnych generatorów wiązki jest tzw. o minimalnej wariancji bez zniekształceń (MVDR). Usiłuje on przepuścić sygnał docierający z docelowego kierunku przez sumator bez wprowadzania zniekształceń. Tak, aby zminimalizować moc na wyjściu generatora wiązki. Skutkuje to próbą zachowania źródła docelowego przy jednoczesnym tłumieniu szumów i zakłóceń otoczenia. Ta technika może działać dobrze w idealnych warunkach laboratoryjnych. Jednak w rzeczywistym świecie niedopasowanie mikrofonu i pogłos otoczenia mogą prowadzić do niedokładności w modelowaniu wpływu lokalizacji źródła w stosunku do matrycy. W rezultacie te kształtowniki wiązki często pracują słabo. Jako że zaczną anulować części źródła docelowego. Można dodać detektor aktywności głosowej do systemu, aby rozwiązać problem — kształtownik wiązki można wyłączyć, gdy to źródło docelowe jest aktywne. Będzie to dobrze funkcjonować, gdy istnieje tylko jedno ujęcie końcowe. Jednak, jeśli jest wiele konkurujących ze sobą, technika ta ma ograniczoną skuteczność. Ponadto formowanie wiązki MVDR — podobnie jak tej z opóźnieniem i sumą oraz większość innych rodzajów — wymaga skalibrowanych mikrofonów. A także znajomości geometrii matrycy i docelowego kierunku źródła. Niektóre generatory wiązki są bardzo wrażliwe na dokładność tych informacji. Mogą wskutek odrzucić ujęcie końcowe, ponieważ nie pochodzi ono ze wskazanego kierunku, gdy dane kalibracyjne są niedostatecznie dokładne.

    Wiele nowoczesnych urządzeń wykorzystuje inną technikę formowania wiązki, zwaną adaptacyjną eliminacją płatka bocznego. Ta próbuje wykluczyć źródła, które nie pochodzą z interesującej algorytm strony. Są one najnowocześniejsze w obecnych aparatach słuchowych. I pozwalają użytkownikowi skoncentrować się na źródłach znajdujących się bezpośrednio przed nim. Jednak istotną wadą tego podejścia jest to, że trzeba patrzeć na to, czego się słucha. Co może być czasami niezręczne czy kłopotliwe, jeśli uwaga wzrokowa jest potrzebna gdzie indziej. Na przykład, gdy użytkownik zerka na ekran komputera, a próbuje dyskutować z kimś dodatkowo, to powstaje problem...

    Alternatywnym podejściem do poprawy zrozumiałości mowy w hałaśliwym otoczeniu jest zastosowanie algorytmów BSS. Maskowanie BSS szacuje obwiednię czasowo-częstotliwościową każdego źródła. A następnie tłumi punkty czasowo-częstotliwościowe, które są zdominowane przez zakłócenia i szum. Inny typ BSS wykorzystuje liniowe filtry wielokanałowe. Scena akustyczna jest podzielona na części składowe za pomocą modeli statystycznych ogólnego zachowania źródeł. BSS następnie oblicza filtr wielokanałowy, którego dane wyjściowe najlepiej pasują do tych wzorców. Czyniąc to, samoistnie wyodrębnia wszystkie istotne źródła sygnału w scenie akustycznej, a nie tylko jedno. Metoda filtra wielokanałowego radzi sobie lepiej z niedopasowaniem mikrofonu i dobrze z pogłosem oraz wieloma konkurencyjnymi ujęciami dźwięku. Nie wymaga żadnej wcześniejszej wiedzy o źródłach, układzie mikrofonów czy scenie akustycznej, ponieważ wszystkie te zmienne są uwzględniane w projekcie filtra wielokanałowego. Inny mikrofon lub błąd kalibracji po prostu zmienia optymalny filtr wielokanałowy.

    Ponieważ BSS działa na podstawie danych audio, a nie geometrii, jest to bardzo niezawodne podejście, niewrażliwe na problemy z kalibracją. I może ogólnie osiągnąć znacznie wyższą separację źródeł w sytuacjach rzeczywistych niż jakikolwiek inny generator wiązki. A ponieważ oddziela wszystkie je niezależnie od kierunku, może być używany do automatycznego śledzenia wielotorowej rozmowy. Jest to szczególnie przydatne w przypadku aplikacji wspomagających słuch, w których użytkownik chce śledzić dyskusję bez konieczności ręcznej interakcji z urządzeniem. BSS może być również bardzo skuteczny w kwestii połączeń VoIP, domowych inteligentnych sprzętów czy samochodowych systemów informacyjno-rozrywkowych.

    Jednak BSS nie jest pozbawiony swoich mankamentów. W przypadku większości algorytmów BSS liczba źródeł, które można oddzielić, zależy od ilości mikrofonów w macierzy pomiarowej. A ponieważ BSS działa na podstawie danych potrzebuje spójnego układu odniesienia, który obecnie ogranicza tę technikę do urządzeń wyposażonych w stacjonarną macierz mikrofonów. Na przykład aparat słuchowy, pakiet mikrofonów na biurko, stacjonarny zestaw telekonferencyjny lub system do połączenia wideo z telefonu, lub tabletu trzymanego nieruchomo w dłoniach bądź na stole.

    Gdy w tle słychać szmery gadających ludzi, BSS zazwyczaj separuje najbardziej dominujące źródła w tym miksie, do których może należeć irytująco głośna osoba siedząca przy sąsiednim stole. Tak więc, aby działać efektywnie, BSS musi być połączony z pomocniczym algorytmem określającym, które z ujęć są punktem realnego zainteresowania.

    BSS samo w sobie bardzo dobrze separuje źródła, ale nie eliminuje szumu tła o więcej niż około 9 dB. Aby uzyskać naprawdę dobre efekty, musi być połączony z inną techniką redukcyjną. Wiele rozwiązań wykorzystuje sztuczną inteligencję (AI) — używa jej np. Zoom i inne systemy konferencyjne — do analizy sygnału w domenie czasowo-częstotliwościowej. A następnie próbuje zidentyfikować komponenty związane z sygnałem oraz te skorelowane z szumem tła itp. Może to działać dobrze nawet z tylko jednym mikrofonem. Jednak dużym problemem z tą metodą jest to, że wyodrębnia ona sygnał poprzez dynamiczne bramkowanie zawartości czasowo-częstotliwościowej. Co może prowadzić do powstawania nieprzyjemnych dla ucha artefaktów w sygnale w sytuacjach ze słabym jego stosunkiem względem szumu (SNR). Może też skutkować znacznymi opóźnieniami.

    Z drugiej strony, algorytm redukcji niechcianych pogłosów o małych opóźnieniach w połączeniu z BSS zapewnia aż do 26 dB tłumienia szumów. Sprawia też, że ​​produkty wykorzystujące takie podejście nadają się do użytku w czasie rzeczywistym — z zaledwie 5 ms przeciągnięciem w czasie i bardziej naturalnym dźwiękiem z mniejszą liczbą zniekształceń niż rozwiązania czysto AI. W szczególności aparaty słuchowe potrzebują bardzo niskiego opóźnienia, aby zachować synchronizację ruchu warg z dźwiękiem. Jako że jest to bardzo utrudniające dla użytkowników, jeśli słyszalna fonia pozostaje w tyle za ruchami ust osoby, z którą rozmawiają.

    Przy coraz większej liczbie technologii przetwarzania sygnału, wybór właściwej dla aplikacji jest ważniejszy niż kiedykolwiek. Wymaga on rozważenia nie tylko zakresu wydajności, której potrzebujesz. A także konkretnej sytuacji, w której aplikacja ma działać, oraz fizycznych ograniczeń produktu branego pod uwagę.

    Źródło: https://www.embedded.com/which-signal-processing-technique-is-right-for-your-device/

    Cool? Ranking DIY
    About Author
    ghost666
    Translator, editor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 wrote 11702 posts with rating 9888, helped 157 times. Live in city Warszawa. Been with us since 2003 year.
  • Computer Controls
  • #2
    kamil3211
    Level 8  
    Czy nie wystarczy użyć laryngofonu?. Można też dzięki temu analizować wibracje za pomocą narzędzi do analizy dźwięku.