Elektroda.pl
Elektroda.pl
X

Search our partners

Find the latest content on electronic components. Datasheets.com
Elektroda.pl
Please add exception to AdBlock for elektroda.pl.
If you watch the ads, you support portal and users.

Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo

ghost666 06 Aug 2014 17:00 4917 14
  • Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideoZespół naukowców z MIT, współpracując z Microsoftem i Adobe, opracowali algorytm umożliwiający rekonstrukcję sygnałów audio poprzez analizę wibracji obiektów, uwiecznionych na wideo. W jednym z eksperymentów udało im się zrekonstruować - w sposób umożliwiający zrozumienie - mowę, na podstawie wibracji paczki chipsów ziemniaczanych nagranej z odległości 5 metrów prze dźwiękochłonne szkło. W innych eksperymentach udało im się rekonstruować użyteczne sygnały audio bazujac na wibracjach folii aluminiowej, wody w szklance czy liści rośliny doniczkowej. Wynalazek ten zostanie zaprezentowany niedługo na Siggraph, największej konferencji poświęconej grafice komputerowej.

    "Gdy dźwięk dociera do jakiegoś obiektu powoduje iż wpada on w wibracje" mówi Abe Davis, student inżyniery elektronicznej i komputerowej na MIT, pierwszy autor opublikowanego niedawno artykułu na opisywany temat. "Ruch wibrującego przedmiotu generuje bardzo subtelne zmiany sygnału wizyjnego rejestrowanego przez kamerę, niemożliwe do dostrzeżenia nieuzbrojonym okiem. Ludzie po prostu nie zdają sobie sprawy iż ta informacja się tam znajduje". Do Davisa dołączyli się dwaj profesorowie z MIT - Fredo Durand i Bill Freeman oraz Neal Wadhwa, student z grupy Freemana, Micheal Rubinstein z działu badawczego Microsoftu oraz Gautham Mysore z działu badawczego Microsoft.

    Rekonstrukcja systemu audio wymaga aby częstotliwość próbek sygnału wideo - czyli liczba klatek na sekundę - była wyższa niż sygnału audio który się rekonstruuje. Naukowcy wykorzystali szybką kamerę zdolną do rejestracji 2000 do 6000 klatek na sekundę. To wartość o wiele szybsza niż komercyjnie spotykane najczęściej 60 klatek na sekundę, jednakże dużo poniżej możliwości najszybszych kamer dostępnych komercyjnie które są w stanie przekroczyć prędkość 100000 klatek na sekundę.

    Sprzęt

    Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę. Jakkolwiek w tym przypadku rekonstrukcja nie byłą zbyt wierna, jak w przypadku szybkich kamer, to nadal możliwa była identyfikacja płci osoby mówiącej czy liczby osób w pokoju. A jeśli posiada się materiał porównawczy, pozwalający na ocenę własności akustycznych głosu konkretnej osoby, to możliwe jest ustalanie jej tożsamości.

    Technika opracowana przez naukowców znajduje swoje oczywiste zastosowanie w policji i kryminalistyce, jednakże Davis jest bardziej entuzjastyczny, jeśli chodzi o jego zastosowania gdyż, jak mówi, "tworzy to nowy sposób obrazowania".

    "Odtwarzamy dźwięki z obiektów" mówi dalej Davies. "Daje nam to dużo infomacji na temat dźwięków otaczających sam przedmiot, jednakże także daje dużo informacji o samym przedmiocie, jako że różne obiekty różnie reagują na dźwięk". W aktualnie prowadzonych pracach naukowcy starają się badać materiały i ich własności strukturalne, na podstawie ich wibracji wzbudzanych krótkimi impulsami dźwiękowymi.

    W eksperymencie opisywanym na konferencji Sigraph naukowcy także dokonali pomiarów własności mechanicznych obiektów które były filmowane. Ocenili oni że ruch który zmierzyli wynosił około jedną dziesiątą mikrometra. Odpowiada to pięciu tysięcznym piksel w zbliżeniu obrazu, jednakże odczytać się to da, dzięki analizie zmian koloru konkretnego piksela w czasie. Dzięki tej technice odczytywać można ruch znacznie mniejszy niż jeden piksel.



    Przyjmijmy, dla przykładu, iż na obrazie widzimy czystą granicę pomiędzy dwoma obszarami. Wszystko po jednej stronie granicy jest niebieskie, a wszystko po drugiej jest czerwone. Na krawędzi ich styku sensor w kamerze odbiera światło czerwone oraz niebieskie, po czym je uśrednia, co daje purpurę. Jeśli, podczas nagrywania kolejnych klatek, region niebieski przesuwa się w stronę czerwieni, nawet o mniej niż wielkość jednego piksela, purpura na krawędzi będzie stawać się bardziej niebieska. To przesunięcie barw pozwala na precyzyjną detekcję ruchu krawędzi.

    Składanie wszystkiego razem

    Niektóre granice pomiędzy obiektami są bardziej zamazane i zajmują więcej niż jeden piksel. Aby sobie pomóc naukowcy wykorzystali algorytm opisany wcześniej do detekcji niewielkich ruchów, takich jak oddychanie u noworodków czy pulsowanie tętnic nadgarstkowych u pacjentów w szpitalu, co pozwala na monitorowanie stanu pacjentów - małych i dużych - wykorzystując obraz wideo. Technika ta polega na przepuszczaniu występujących po sobie klatek wideo przez zestaw filtrów, które mierzą fluktuacje, takie jak zmiana koloru na różnych interfejsach w kilku orientacjach - pionowo, poziomo, po przekątnej i w kilku różnych skalach.

    Naukowcy opracowali algorytm który łączy w sobie informacje pochodzące z wyjść opisanych powyżej filtrów w celu rekonstrukcji ruchu obserwowanych w momencie gdy docierają do niego fale dźwiękowe. Różne krawędzie obserwowanych przedmiotów są w stanie wibrować w różnym kierunku pod wpływem tego samego wzbudzenia, zatem algorytm najpierw układa wszystkie pomiary w taki sposób aby nie wygaszały się wzajemnie, a następnie przypisuje większe wagi tym pomiarom które dokonane są na bardziej czytelnych krawędziach, na przykład pomiędzy obszarami o różnym kolorze.

    Naukowcy opracowują teraz wersję algorytmu do zastosowania z klasycznymi filmami.Sensory kamer cyfrowych złożone są z matrycy milionów fotodetektorów, nawet w najtańszych dostępnych komercyjnie kamerach. W sprzęcie tym dane z sensora sczytywane są z matrycy linia po linii. Generalnie nie jest to problem, jednakże przy szybko ruszających się elementach może generować to powstawanie pewnych artefaktów. Na przykład szybko wirujący roto śmigłowca może poruszyć się znacznie pomiędzy digitalizacją poszczególnych linii.

    Dla zespołu w którym pracuje Davis nie jest to problem, wręcz przeciwnie. Lekkie zniekształcenia obrazu przedmiotów na ich krawędziach, zazwyczaj niewidoczne dla gołego oka, zawierają w sobie informacje na temat wibracji przedmiotu. I informacje te są dostateczne aby zrekonstruować na ich podstawie pewien potencjalnie przydatny sygnał audio.

    Alexei Efros, profesor inżynierii elektrycznej i komputerowej na University of California w Berkeley w Stanach Zjednoczonych opisuje wynalazek jako "Świeży i nowoczesny. To rodzaj badań jakich nie prowadzi żadna inna grupa na świecie". Naukowcy także czasami oglądają filmy takie jak np. opisujące poczynania Jamesa Bonda i myślą iż "to tyko sztuczki z Hollywood, nie można tak zrobić, to śmieszne". I nagle ktoś to robi, zupełnie jak z filmu sensacyjnego. I nagle wiadomo że morderca jest winny, ponieważ przyznał się do tego, co zostało zarejestrowane jako drżąca paczka chipsów ziemniaczanych.

    Efros przytakuje, iż badanie własności mechanicznych materiałów może być owocną aplikacją opisywanej powyżej technologii. Jednakże, jak dodaje, "Jestem pewien iż znajdą się aplikacje których nikt nie będzie się spodziewał. Wydaje mi się iż to jest wyznacznikiem wysokiego poziomu odkrycia - robisz coś, ponieważ jest to po prostu fajne, a potem ktoś nagle przekuwa Twoje odkrycie w coś, czego nigdy byś sobie nie wyobraził. To bardzo fajnie jeśli można tworzyć w tak kreatywnym środowisku".

    Źródło:

    http://phys.org/news/2014-08-algorithm-recovers-speech-vibrations-potato-chip.html

    Cool? Ranking DIY
    About Author
    ghost666
    Translator, editor
    Offline 
    Fizyk z wykształcenia. Po zrobieniu doktoratu i dwóch latach pracy na uczelni, przeszedł do sektora prywatnego, gdzie zajmuje się projektowaniem urządzeń elektronicznych i programowaniem. Od 2003 roku na forum Elektroda.pl, od 2008 roku członek zespołu redakcyjnego.
    ghost666 wrote 11090 posts with rating 9405, helped 157 times. Live in city Warszawa. Been with us since 2003 year.
  • #3
    andrzejlisek
    Level 28  
    szymon122 wrote:
    Czy można jakoś zwiększyć ilość FPS standardowej kamery, np z 60 FPS do 120 FPS?

    Na ogół nie jest to możliwe, jeżeli już, to na pewno trzeba przerobić lub utworzyć nowe firmware kamery, zmienić zapis video, bo dwukrotne zwiększenie FPS, to dwukrotnie więcej danych obrazu. Do tego potrzebne są szczegóły konstrukcyjne danej kamery.

    Może się okazać, że matryca CCD/CMOS w danej kamerze nie będzie zdolna prawidłowo rejestrować obraz z taką szybkością, wtedy z całą pewnością nic z tego nie będzie.

    Już prędzej przyspieszy się kamerę starego typu działającą w oparciu o błonę fotograficzną 8mm. Wtedy jedynym ograniczeniem jest wytrzymałość mechaniczna migawki i błony. Oczywiście będzie problem z zakupem i wywołaniem takiej błony, bo chyba żaden zakład fotograficzny już nie sprzedaje i nie wywołuje tego typu błon.
  • #4
    marszalek_duck
    Level 17  
    @UP

    Z błoną nie ma większego problemu. No może 8mm była by bardziej problematyczna ale ze 2 lata temu do mojej kamery kupiłem taką. Z tym że ona była dość droga za 10min filmu dałem chyba coś koło 80zł. Jednak istniały kamery na filmy średnioformatowe a je można kupić w kasetach po kilkadziesiąt metrów, są stosunkowo tanie. Jak trafisz porządny zakład fotograficzny to mają jeszcze nadal ciemnie więc dali by radę ci to wywołać. Ewentualnie sam możesz próbować, z czarno białą nie ma większych problemów.
  • #5
    OldSkull
    Level 28  
    Przypominam sobie jak parę lat temu w jakimś filmie widziałem coś takiego. Co prawda rzeczywiście żadna kamera monitoringu (film miał więcej takich kwiatków ;) ) na to nie pozwoli - ale sam pomysł był ciekawy.
  • #6
    PiotrPitucha
    Level 33  
    Witam
    Musieli mieć jakąś super szybką kamerę, bo z Twierdzenia Shannona wynika że odtworzenie głosu z próbek co 1/25s nie jest mozliwe, chyba że ktoś ma baaaaardzo niski głos poniżej progu słyszalności.
    Piotr
  • #7
    markoz7874
    Level 31  
    ghost666 wrote:
    ..W jednym z eksperymentów udało im się zrekonstruować - w sposób umożliwiający zrozumienie - mowę, na podstawie wibracji paczki chipsów ziemniaczanych nagranej z odległości 5 metrów prze dźwiękochłonne szkło..

    Jeżeli tym szkłem była szyba w oknie, to może zarejestrowali wibracje szyby a nie paczki chipsów? Podsłuchy wykorzystujące wibracje szyby się stosuje.
  • #8
    OldSkull
    Level 28  
    markoz7874, dźwiękochłonne to dźwiękochłonne. Poza tym opisali jak to robią. Swoją drogą ciekawa metoda :)
  • #9
    iagre
    Level 35  
    Teraz do robienia afer podsłuchowych będzie wystarczała zwykła kamerka „internetowa” jakości VGA.
    ;)
  • #10
    OldSkull
    Level 28  
    iagre, no zwykła to nie, bo musisz mieć wielokilohercowe próbkowanie.
  • #11
    timo66
    Level 23  
    PiotrPitucha wrote:
    Witam
    Musieli mieć jakąś super szybką kamerę, bo z Twierdzenia Shannona wynika że odtworzenie głosu z próbek co 1/25s nie jest mozliwe, chyba że ktoś ma baaaaardzo niski głos poniżej progu słyszalności.
    Piotr

    lagre wrote:
    Teraz do robienia afer podsłuchowych będzie wystarczała zwykła kamerka „internetowa” jakości VGA.
    Wink

    Quote:
    Naukowcy wykorzystali szybką kamerę zdolną do rejestracji 2000 do 6000 klatek na sekundę.


    Czy czytanie aż tak boli?? Kilka linijek na krzyż i już za dużo do czytania.
  • #12
    ghost666
    Translator, editor
    Jak już jesteśmy przy wytykaniu nieczytania:

    Quote:
    Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę. Jakkolwiek w tym przypadku rekonstrukcja nie byłą zbyt wierna, jak w przypadku szybkich kamer, to nadal możliwa była identyfikacja płci osoby mówiącej czy liczby osób w pokoju. A jeśli posiada się materiał porównawczy, pozwalający na ocenę własności akustycznych głosu konkretnej osoby, to możliwe jest ustalanie jej tożsamości.


    Czyli jednak z danych z normalnej kamery też się da coś uzyskać.
  • #13
    deus.ex.machina
    Level 32  
    Zawsze można użyć minikamery z myszy optycznej - te maja dość wysokie prędkości próbkowania (ilość klatek na sekundę) rzędu tysięcy, dodatkowo wiele z nowszych "mysich" minikamer ma rozdzielczość 64x64 piksele co powinno wystarczyć. A co do zdolności odtwarzania dźwięku o wyższych częstotliwościach przy relatywnie malej ilości klatek - przecież mamy siatkę pikseli, przy typowych 8 bitach na komponent daje to całkiem pokaźną ilością danych, reszta to już czysta obróbka.
  • #14
    deton24
    Level 12  
    Quote:
    Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę.

    Ciekawe czy przydatna byłaby interpolacja klatek.
  • #15
    SQLmaster
    Level 24  
    Oj tam news...

    Od dawna uzywa się mikrofonów laserowych. Jedyna wada to delikatnie wysoka cena:
    http://www.podsluchy.sklepy24h.pl/?page=produkt_lista&kategoria_id=19765
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo

    no ale i jakość oraz odległość na którą działają całkiem inna.

    Dodano po 23 [minuty]:

    ghost666 wrote:
    Jak już jesteśmy przy wytykaniu nieczytania:

    Quote:
    Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę.


    Czyli jednak z danych z normalnej kamery też się da coś uzyskać.

    Ależ oczywiście - tylko trzeba myśleć. Jesli kamera analizuje obraz linia po linii (lub przysłona przesuwa się w pionie jak w lustrzance), to próbkowanie będzie równe liczbie obrazów * liczba linii.
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo

    Jak ktoś robi zdjęcia szybkich obiektów to na pewno nieraz zauważył taki efekt: obraz większości aparatów nie jest rejestrowny cały w jednej chwili tylko linia po linii. Przykłady zdjęć które to pokazują:
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo