Elektroda.pl
Elektroda.pl
X
Proszę, dodaj wyjątek www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo

ghost666 06 Sie 2014 17:00 4590 14
  • Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideoZespół naukowców z MIT, współpracując z Microsoftem i Adobe, opracowali algorytm umożliwiający rekonstrukcję sygnałów audio poprzez analizę wibracji obiektów, uwiecznionych na wideo. W jednym z eksperymentów udało im się zrekonstruować - w sposób umożliwiający zrozumienie - mowę, na podstawie wibracji paczki chipsów ziemniaczanych nagranej z odległości 5 metrów prze dźwiękochłonne szkło. W innych eksperymentach udało im się rekonstruować użyteczne sygnały audio bazujac na wibracjach folii aluminiowej, wody w szklance czy liści rośliny doniczkowej. Wynalazek ten zostanie zaprezentowany niedługo na Siggraph, największej konferencji poświęconej grafice komputerowej.

    "Gdy dźwięk dociera do jakiegoś obiektu powoduje iż wpada on w wibracje" mówi Abe Davis, student inżyniery elektronicznej i komputerowej na MIT, pierwszy autor opublikowanego niedawno artykułu na opisywany temat. "Ruch wibrującego przedmiotu generuje bardzo subtelne zmiany sygnału wizyjnego rejestrowanego przez kamerę, niemożliwe do dostrzeżenia nieuzbrojonym okiem. Ludzie po prostu nie zdają sobie sprawy iż ta informacja się tam znajduje". Do Davisa dołączyli się dwaj profesorowie z MIT - Fredo Durand i Bill Freeman oraz Neal Wadhwa, student z grupy Freemana, Micheal Rubinstein z działu badawczego Microsoftu oraz Gautham Mysore z działu badawczego Microsoft.

    Rekonstrukcja systemu audio wymaga aby częstotliwość próbek sygnału wideo - czyli liczba klatek na sekundę - była wyższa niż sygnału audio który się rekonstruuje. Naukowcy wykorzystali szybką kamerę zdolną do rejestracji 2000 do 6000 klatek na sekundę. To wartość o wiele szybsza niż komercyjnie spotykane najczęściej 60 klatek na sekundę, jednakże dużo poniżej możliwości najszybszych kamer dostępnych komercyjnie które są w stanie przekroczyć prędkość 100000 klatek na sekundę.

    Sprzęt

    Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę. Jakkolwiek w tym przypadku rekonstrukcja nie byłą zbyt wierna, jak w przypadku szybkich kamer, to nadal możliwa była identyfikacja płci osoby mówiącej czy liczby osób w pokoju. A jeśli posiada się materiał porównawczy, pozwalający na ocenę własności akustycznych głosu konkretnej osoby, to możliwe jest ustalanie jej tożsamości.

    Technika opracowana przez naukowców znajduje swoje oczywiste zastosowanie w policji i kryminalistyce, jednakże Davis jest bardziej entuzjastyczny, jeśli chodzi o jego zastosowania gdyż, jak mówi, "tworzy to nowy sposób obrazowania".





    "Odtwarzamy dźwięki z obiektów" mówi dalej Davies. "Daje nam to dużo infomacji na temat dźwięków otaczających sam przedmiot, jednakże także daje dużo informacji o samym przedmiocie, jako że różne obiekty różnie reagują na dźwięk". W aktualnie prowadzonych pracach naukowcy starają się badać materiały i ich własności strukturalne, na podstawie ich wibracji wzbudzanych krótkimi impulsami dźwiękowymi.

    W eksperymencie opisywanym na konferencji Sigraph naukowcy także dokonali pomiarów własności mechanicznych obiektów które były filmowane. Ocenili oni że ruch który zmierzyli wynosił około jedną dziesiątą mikrometra. Odpowiada to pięciu tysięcznym piksel w zbliżeniu obrazu, jednakże odczytać się to da, dzięki analizie zmian koloru konkretnego piksela w czasie. Dzięki tej technice odczytywać można ruch znacznie mniejszy niż jeden piksel.

    Przyjmijmy, dla przykładu, iż na obrazie widzimy czystą granicę pomiędzy dwoma obszarami. Wszystko po jednej stronie granicy jest niebieskie, a wszystko po drugiej jest czerwone. Na krawędzi ich styku sensor w kamerze odbiera światło czerwone oraz niebieskie, po czym je uśrednia, co daje purpurę. Jeśli, podczas nagrywania kolejnych klatek, region niebieski przesuwa się w stronę czerwieni, nawet o mniej niż wielkość jednego piksela, purpura na krawędzi będzie stawać się bardziej niebieska. To przesunięcie barw pozwala na precyzyjną detekcję ruchu krawędzi.

    Składanie wszystkiego razem

    Niektóre granice pomiędzy obiektami są bardziej zamazane i zajmują więcej niż jeden piksel. Aby sobie pomóc naukowcy wykorzystali algorytm opisany wcześniej do detekcji niewielkich ruchów, takich jak oddychanie u noworodków czy pulsowanie tętnic nadgarstkowych u pacjentów w szpitalu, co pozwala na monitorowanie stanu pacjentów - małych i dużych - wykorzystując obraz wideo. Technika ta polega na przepuszczaniu występujących po sobie klatek wideo przez zestaw filtrów, które mierzą fluktuacje, takie jak zmiana koloru na różnych interfejsach w kilku orientacjach - pionowo, poziomo, po przekątnej i w kilku różnych skalach.

    Naukowcy opracowali algorytm który łączy w sobie informacje pochodzące z wyjść opisanych powyżej filtrów w celu rekonstrukcji ruchu obserwowanych w momencie gdy docierają do niego fale dźwiękowe. Różne krawędzie obserwowanych przedmiotów są w stanie wibrować w różnym kierunku pod wpływem tego samego wzbudzenia, zatem algorytm najpierw układa wszystkie pomiary w taki sposób aby nie wygaszały się wzajemnie, a następnie przypisuje większe wagi tym pomiarom które dokonane są na bardziej czytelnych krawędziach, na przykład pomiędzy obszarami o różnym kolorze.

    Naukowcy opracowują teraz wersję algorytmu do zastosowania z klasycznymi filmami.Sensory kamer cyfrowych złożone są z matrycy milionów fotodetektorów, nawet w najtańszych dostępnych komercyjnie kamerach. W sprzęcie tym dane z sensora sczytywane są z matrycy linia po linii. Generalnie nie jest to problem, jednakże przy szybko ruszających się elementach może generować to powstawanie pewnych artefaktów. Na przykład szybko wirujący roto śmigłowca może poruszyć się znacznie pomiędzy digitalizacją poszczególnych linii.

    Dla zespołu w którym pracuje Davis nie jest to problem, wręcz przeciwnie. Lekkie zniekształcenia obrazu przedmiotów na ich krawędziach, zazwyczaj niewidoczne dla gołego oka, zawierają w sobie informacje na temat wibracji przedmiotu. I informacje te są dostateczne aby zrekonstruować na ich podstawie pewien potencjalnie przydatny sygnał audio.

    Alexei Efros, profesor inżynierii elektrycznej i komputerowej na University of California w Berkeley w Stanach Zjednoczonych opisuje wynalazek jako "Świeży i nowoczesny. To rodzaj badań jakich nie prowadzi żadna inna grupa na świecie". Naukowcy także czasami oglądają filmy takie jak np. opisujące poczynania Jamesa Bonda i myślą iż "to tyko sztuczki z Hollywood, nie można tak zrobić, to śmieszne". I nagle ktoś to robi, zupełnie jak z filmu sensacyjnego. I nagle wiadomo że morderca jest winny, ponieważ przyznał się do tego, co zostało zarejestrowane jako drżąca paczka chipsów ziemniaczanych.

    Efros przytakuje, iż badanie własności mechanicznych materiałów może być owocną aplikacją opisywanej powyżej technologii. Jednakże, jak dodaje, "Jestem pewien iż znajdą się aplikacje których nikt nie będzie się spodziewał. Wydaje mi się iż to jest wyznacznikiem wysokiego poziomu odkrycia - robisz coś, ponieważ jest to po prostu fajne, a potem ktoś nagle przekuwa Twoje odkrycie w coś, czego nigdy byś sobie nie wyobraził. To bardzo fajnie jeśli można tworzyć w tak kreatywnym środowisku".

    Źródło:

    http://phys.org/news/2014-08-algorithm-recovers-speech-vibrations-potato-chip.html


    Fajne! Ranking DIY
  • #2 06 Sie 2014 20:18
    szymon122
    Poziom 37  

    Jestem ciekawy jaka musi być rozdzielczość kamery aby zauważyć takie minimalne drgania przedmiotów. Mam pytanie trochę z innej beczki: Czy można jakoś zwiększyć ilość FPS standardowej kamery, np z 60 FPS do 120 FPS?

  • #3 06 Sie 2014 21:22
    andrzejlisek
    Poziom 28  

    szymon122 napisał:
    Czy można jakoś zwiększyć ilość FPS standardowej kamery, np z 60 FPS do 120 FPS?

    Na ogół nie jest to możliwe, jeżeli już, to na pewno trzeba przerobić lub utworzyć nowe firmware kamery, zmienić zapis video, bo dwukrotne zwiększenie FPS, to dwukrotnie więcej danych obrazu. Do tego potrzebne są szczegóły konstrukcyjne danej kamery.

    Może się okazać, że matryca CCD/CMOS w danej kamerze nie będzie zdolna prawidłowo rejestrować obraz z taką szybkością, wtedy z całą pewnością nic z tego nie będzie.

    Już prędzej przyspieszy się kamerę starego typu działającą w oparciu o błonę fotograficzną 8mm. Wtedy jedynym ograniczeniem jest wytrzymałość mechaniczna migawki i błony. Oczywiście będzie problem z zakupem i wywołaniem takiej błony, bo chyba żaden zakład fotograficzny już nie sprzedaje i nie wywołuje tego typu błon.

  • #4 06 Sie 2014 22:21
    marszalek_duck
    Poziom 17  

    @UP

    Z błoną nie ma większego problemu. No może 8mm była by bardziej problematyczna ale ze 2 lata temu do mojej kamery kupiłem taką. Z tym że ona była dość droga za 10min filmu dałem chyba coś koło 80zł. Jednak istniały kamery na filmy średnioformatowe a je można kupić w kasetach po kilkadziesiąt metrów, są stosunkowo tanie. Jak trafisz porządny zakład fotograficzny to mają jeszcze nadal ciemnie więc dali by radę ci to wywołać. Ewentualnie sam możesz próbować, z czarno białą nie ma większych problemów.

  • #5 07 Sie 2014 08:20
    OldSkull
    Poziom 27  

    Przypominam sobie jak parę lat temu w jakimś filmie widziałem coś takiego. Co prawda rzeczywiście żadna kamera monitoringu (film miał więcej takich kwiatków ;) ) na to nie pozwoli - ale sam pomysł był ciekawy.

  • #6 07 Sie 2014 09:00
    PiotrPitucha
    Poziom 33  

    Witam
    Musieli mieć jakąś super szybką kamerę, bo z Twierdzenia Shannona wynika że odtworzenie głosu z próbek co 1/25s nie jest mozliwe, chyba że ktoś ma baaaaardzo niski głos poniżej progu słyszalności.
    Piotr

  • #7 07 Sie 2014 09:36
    markoz7874
    Poziom 31  

    ghost666 napisał:
    ..W jednym z eksperymentów udało im się zrekonstruować - w sposób umożliwiający zrozumienie - mowę, na podstawie wibracji paczki chipsów ziemniaczanych nagranej z odległości 5 metrów prze dźwiękochłonne szkło..

    Jeżeli tym szkłem była szyba w oknie, to może zarejestrowali wibracje szyby a nie paczki chipsów? Podsłuchy wykorzystujące wibracje szyby się stosuje.

  • #8 07 Sie 2014 09:39
    OldSkull
    Poziom 27  

    markoz7874, dźwiękochłonne to dźwiękochłonne. Poza tym opisali jak to robią. Swoją drogą ciekawa metoda :)

  • #9 07 Sie 2014 11:25
    iagre
    Poziom 35  

    Teraz do robienia afer podsłuchowych będzie wystarczała zwykła kamerka „internetowa” jakości VGA.
    ;)

  • #10 07 Sie 2014 12:34
    OldSkull
    Poziom 27  

    iagre, no zwykła to nie, bo musisz mieć wielokilohercowe próbkowanie.

  • #11 07 Sie 2014 17:49
    timo66
    Poziom 23  

    PiotrPitucha napisał:
    Witam
    Musieli mieć jakąś super szybką kamerę, bo z Twierdzenia Shannona wynika że odtworzenie głosu z próbek co 1/25s nie jest mozliwe, chyba że ktoś ma baaaaardzo niski głos poniżej progu słyszalności.
    Piotr

    lagre napisał:
    Teraz do robienia afer podsłuchowych będzie wystarczała zwykła kamerka „internetowa” jakości VGA.
    Wink

    Cytat:
    Naukowcy wykorzystali szybką kamerę zdolną do rejestracji 2000 do 6000 klatek na sekundę.


    Czy czytanie aż tak boli?? Kilka linijek na krzyż i już za dużo do czytania.

  • #12 07 Sie 2014 17:53
    ghost666
    Tłumacz Redaktor

    Jak już jesteśmy przy wytykaniu nieczytania:

    Cytat:
    Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę. Jakkolwiek w tym przypadku rekonstrukcja nie byłą zbyt wierna, jak w przypadku szybkich kamer, to nadal możliwa była identyfikacja płci osoby mówiącej czy liczby osób w pokoju. A jeśli posiada się materiał porównawczy, pozwalający na ocenę własności akustycznych głosu konkretnej osoby, to możliwe jest ustalanie jej tożsamości.


    Czyli jednak z danych z normalnej kamery też się da coś uzyskać.

  • #13 07 Sie 2014 20:29
    deus.ex.machina
    Poziom 32  

    Zawsze można użyć minikamery z myszy optycznej - te maja dość wysokie prędkości próbkowania (ilość klatek na sekundę) rzędu tysięcy, dodatkowo wiele z nowszych "mysich" minikamer ma rozdzielczość 64x64 piksele co powinno wystarczyć. A co do zdolności odtwarzania dźwięku o wyższych częstotliwościach przy relatywnie malej ilości klatek - przecież mamy siatkę pikseli, przy typowych 8 bitach na komponent daje to całkiem pokaźną ilością danych, reszta to już czysta obróbka.

  • #14 08 Sie 2014 10:43
    deton24
    Poziom 12  

    Cytat:
    Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę.

    Ciekawe czy przydatna byłaby interpolacja klatek.

  • #15 08 Sie 2014 14:33
    SQLmaster
    Poziom 24  

    Oj tam news...

    Od dawna uzywa się mikrofonów laserowych. Jedyna wada to delikatnie wysoka cena:
    http://www.podsluchy.sklepy24h.pl/?page=produkt_lista&kategoria_id=19765
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo

    no ale i jakość oraz odległość na którą działają całkiem inna.

    Dodano po 23 [minuty]:

    ghost666 napisał:
    Jak już jesteśmy przy wytykaniu nieczytania:

    Cytat:
    Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę.


    Czyli jednak z danych z normalnej kamery też się da coś uzyskać.

    Ależ oczywiście - tylko trzeba myśleć. Jesli kamera analizuje obraz linia po linii (lub przysłona przesuwa się w pionie jak w lustrzance), to próbkowanie będzie równe liczbie obrazów * liczba linii.
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo

    Jak ktoś robi zdjęcia szybkich obiektów to na pewno nieraz zauważył taki efekt: obraz większości aparatów nie jest rejestrowny cały w jednej chwili tylko linia po linii. Przykłady zdjęć które to pokazują:
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo
    Algorytm odtwarzający mowę z wibracji paczki chipsów nagranych kamerą wideo