
"Gdy dźwięk dociera do jakiegoś obiektu powoduje iż wpada on w wibracje" mówi Abe Davis, student inżyniery elektronicznej i komputerowej na MIT, pierwszy autor opublikowanego niedawno artykułu na opisywany temat. "Ruch wibrującego przedmiotu generuje bardzo subtelne zmiany sygnału wizyjnego rejestrowanego przez kamerę, niemożliwe do dostrzeżenia nieuzbrojonym okiem. Ludzie po prostu nie zdają sobie sprawy iż ta informacja się tam znajduje". Do Davisa dołączyli się dwaj profesorowie z MIT - Fredo Durand i Bill Freeman oraz Neal Wadhwa, student z grupy Freemana, Micheal Rubinstein z działu badawczego Microsoftu oraz Gautham Mysore z działu badawczego Microsoft.
Rekonstrukcja systemu audio wymaga aby częstotliwość próbek sygnału wideo - czyli liczba klatek na sekundę - była wyższa niż sygnału audio który się rekonstruuje. Naukowcy wykorzystali szybką kamerę zdolną do rejestracji 2000 do 6000 klatek na sekundę. To wartość o wiele szybsza niż komercyjnie spotykane najczęściej 60 klatek na sekundę, jednakże dużo poniżej możliwości najszybszych kamer dostępnych komercyjnie które są w stanie przekroczyć prędkość 100000 klatek na sekundę.
Sprzęt
Jednakże w innych eksperymentach naukowcy wykorzystali zwykłą kamerę cyfrową. Dzięki pewnemu detalowi konstrukcji sensora kamer, naukowcy byli w stanie zebrać informacje odnośnie wibracji o wyższej częstotliwości, nawet pomimo tego iż zebrane zostało jedynie 60 klatek na sekundę. Jakkolwiek w tym przypadku rekonstrukcja nie byłą zbyt wierna, jak w przypadku szybkich kamer, to nadal możliwa była identyfikacja płci osoby mówiącej czy liczby osób w pokoju. A jeśli posiada się materiał porównawczy, pozwalający na ocenę własności akustycznych głosu konkretnej osoby, to możliwe jest ustalanie jej tożsamości.
Technika opracowana przez naukowców znajduje swoje oczywiste zastosowanie w policji i kryminalistyce, jednakże Davis jest bardziej entuzjastyczny, jeśli chodzi o jego zastosowania gdyż, jak mówi, "tworzy to nowy sposób obrazowania".
"Odtwarzamy dźwięki z obiektów" mówi dalej Davies. "Daje nam to dużo infomacji na temat dźwięków otaczających sam przedmiot, jednakże także daje dużo informacji o samym przedmiocie, jako że różne obiekty różnie reagują na dźwięk". W aktualnie prowadzonych pracach naukowcy starają się badać materiały i ich własności strukturalne, na podstawie ich wibracji wzbudzanych krótkimi impulsami dźwiękowymi.
W eksperymencie opisywanym na konferencji Sigraph naukowcy także dokonali pomiarów własności mechanicznych obiektów które były filmowane. Ocenili oni że ruch który zmierzyli wynosił około jedną dziesiątą mikrometra. Odpowiada to pięciu tysięcznym piksel w zbliżeniu obrazu, jednakże odczytać się to da, dzięki analizie zmian koloru konkretnego piksela w czasie. Dzięki tej technice odczytywać można ruch znacznie mniejszy niż jeden piksel.
Przyjmijmy, dla przykładu, iż na obrazie widzimy czystą granicę pomiędzy dwoma obszarami. Wszystko po jednej stronie granicy jest niebieskie, a wszystko po drugiej jest czerwone. Na krawędzi ich styku sensor w kamerze odbiera światło czerwone oraz niebieskie, po czym je uśrednia, co daje purpurę. Jeśli, podczas nagrywania kolejnych klatek, region niebieski przesuwa się w stronę czerwieni, nawet o mniej niż wielkość jednego piksela, purpura na krawędzi będzie stawać się bardziej niebieska. To przesunięcie barw pozwala na precyzyjną detekcję ruchu krawędzi.
Składanie wszystkiego razem
Niektóre granice pomiędzy obiektami są bardziej zamazane i zajmują więcej niż jeden piksel. Aby sobie pomóc naukowcy wykorzystali algorytm opisany wcześniej do detekcji niewielkich ruchów, takich jak oddychanie u noworodków czy pulsowanie tętnic nadgarstkowych u pacjentów w szpitalu, co pozwala na monitorowanie stanu pacjentów - małych i dużych - wykorzystując obraz wideo. Technika ta polega na przepuszczaniu występujących po sobie klatek wideo przez zestaw filtrów, które mierzą fluktuacje, takie jak zmiana koloru na różnych interfejsach w kilku orientacjach - pionowo, poziomo, po przekątnej i w kilku różnych skalach.
Naukowcy opracowali algorytm który łączy w sobie informacje pochodzące z wyjść opisanych powyżej filtrów w celu rekonstrukcji ruchu obserwowanych w momencie gdy docierają do niego fale dźwiękowe. Różne krawędzie obserwowanych przedmiotów są w stanie wibrować w różnym kierunku pod wpływem tego samego wzbudzenia, zatem algorytm najpierw układa wszystkie pomiary w taki sposób aby nie wygaszały się wzajemnie, a następnie przypisuje większe wagi tym pomiarom które dokonane są na bardziej czytelnych krawędziach, na przykład pomiędzy obszarami o różnym kolorze.
Naukowcy opracowują teraz wersję algorytmu do zastosowania z klasycznymi filmami.Sensory kamer cyfrowych złożone są z matrycy milionów fotodetektorów, nawet w najtańszych dostępnych komercyjnie kamerach. W sprzęcie tym dane z sensora sczytywane są z matrycy linia po linii. Generalnie nie jest to problem, jednakże przy szybko ruszających się elementach może generować to powstawanie pewnych artefaktów. Na przykład szybko wirujący roto śmigłowca może poruszyć się znacznie pomiędzy digitalizacją poszczególnych linii.
Dla zespołu w którym pracuje Davis nie jest to problem, wręcz przeciwnie. Lekkie zniekształcenia obrazu przedmiotów na ich krawędziach, zazwyczaj niewidoczne dla gołego oka, zawierają w sobie informacje na temat wibracji przedmiotu. I informacje te są dostateczne aby zrekonstruować na ich podstawie pewien potencjalnie przydatny sygnał audio.
Alexei Efros, profesor inżynierii elektrycznej i komputerowej na University of California w Berkeley w Stanach Zjednoczonych opisuje wynalazek jako "Świeży i nowoczesny. To rodzaj badań jakich nie prowadzi żadna inna grupa na świecie". Naukowcy także czasami oglądają filmy takie jak np. opisujące poczynania Jamesa Bonda i myślą iż "to tyko sztuczki z Hollywood, nie można tak zrobić, to śmieszne". I nagle ktoś to robi, zupełnie jak z filmu sensacyjnego. I nagle wiadomo że morderca jest winny, ponieważ przyznał się do tego, co zostało zarejestrowane jako drżąca paczka chipsów ziemniaczanych.
Efros przytakuje, iż badanie własności mechanicznych materiałów może być owocną aplikacją opisywanej powyżej technologii. Jednakże, jak dodaje, "Jestem pewien iż znajdą się aplikacje których nikt nie będzie się spodziewał. Wydaje mi się iż to jest wyznacznikiem wysokiego poziomu odkrycia - robisz coś, ponieważ jest to po prostu fajne, a potem ktoś nagle przekuwa Twoje odkrycie w coś, czego nigdy byś sobie nie wyobraził. To bardzo fajnie jeśli można tworzyć w tak kreatywnym środowisku".
Źródło:
http://phys.org/news/2014-08-algorithm-recovers-speech-vibrations-potato-chip.html
Cool? Ranking DIY