Algorytm kompresji dla wsadu FPGA w ATmega 128/2561 - sugestie?

Question

Witam! W tej chwili programuję w C mikrokontrolery ATmega 128 i 2561. Program ATmegi zawiera dołączany wsad do FPGA XILINX. Atmega po uruchomieniu urządzenia programuje FPGA tym wsadem. Ze względu na to że: - wsad do FPGA zajmuje relatywnie b. dużo miejsca - istnieje konieczność dodawania coraz...

bis · Accepted Answer

Ja zrobiłem cos takiego dla systemu z ARM-em i SPARTANEM 250E. Oczywiście kompresje typu ZIP i inne takie z rozwijanym słownikiem całkowicie się nie nadają do małych procków, głównie z powodu małej ilości RAM. Próby z samym Huffmanem dawały słabe wyniki. Dodałem początkowy krok w postaci kompresji powtarzających się bloków. Potem wyznaczam kodowanie Huffmana (indywidualnie dla pliku, odpowiednia tablica jest umieszczana w skompresowanym nagłówku) W moim projekcie uzyskałem następujące wyniki (dla użycia zasobów FPGA na poziomie 70%)
Oryginalny plik - 169216 bajtów
Po kompresji powtarzalnych bloków - 83980 (49,6% oryginalnej wielkości)
dalej kompresja tego Huffmanem - 56428 bajtów (33,4% oryginału)

Do rozkompresowania potrzeba tylko kilku zmiennych i wskaźników i idealnie nadaje się do rozkompresowywania "w locie" (ja programuję szeregowo za pomocą sprzęgu SPI, na przerwaniach uzyskując kolejne słowa).

przy implementacji kompresji wychodzą zaskakujące zależności, trochę rozbudowałem oprogramowanie aby drogą prób dochodzić do optymalnego lokalnie wyniku. Z mojej analizy wynika że jest jeszcze dużo do zrobienia w dziedzinie wyszukiwania powtarzalnych bloków ale tam juz jest problem optymalizacji (coś jak problem komiwojażera, za dużo możliwych ścieżek i brak sensownego algorytmu (szybkiego) do znalezienia prawdziwego minimum). Na razie nie mam czasu na dalsze usprawnienia, taki wynik mi wystarcza.

bis

bis · Accepted Answer

Proponuję porzucić szukanie gotowych bibliotek do Huffmana bo z reguły ich implementacja nie jest dostosowana do wymagań typu embeded. Lepiej dorwać opis metody i zrozumieć ja to działa. Jak się troche posiedzi i pokombnuje to jednak RAMu nie potrzeba tak dużo. W kodowaniu Hufmana kody od 0-255 zamieniam na różnej długości łańcuchy bitów. Tablica dla konkretnego pliku jest wyznaczana w czasie kompresowania i dodawana do skompresowanej postaci. Z zasady kodowania najdluższy łańcuch ma 15 bitów, do każdego trzeba dołaczyć informacje o długości i wartości bajtu który koduje razem narzut jest równy 256*4 bajty = 1KB ale to jest we FLASHu. Tablica jest uporządkowana narastająco więc można ją przeszukiwać liniowo (to wynika znowu z zasady kodowania, najkrótsze łańcuchy występują najczęściej więc przeszukując liniowo zawsze uzyskamy optymalną ilość komparacji) cała moja procedura zajmuje w ramie 13 zmiennych (longi , pointery i parę bajtowych, ale to jest razem z danymi organizujacymi jeszcze dekompresję powtarzalnych elementów (np. w bitstream do XILINX jest dużo "0") i organizacją odzyskiwania zdekompresowanych bajtów metodą "bajt po bajcie" na potrzeby wysyłania na przerwaniach. Podałem kilka wskazówek jak można to zrobić. Moje oprogramowanie jest dużo bardziej rozbudowane (np. wstawianie zawartości BlockRam bezpośrednio do bitstream przed kompresowaniem bez konieczności syntezy narzędziami XILINX)i jest wykorzystywane komercyjnie wiec teraz nie udostępnię żródeł. Ale może jak znajde czas to zrobię jakieś "wycinanki".

bis

JacekCz · Accepted Answer

Zdecydowanie tablica może być mniejsza. Nakładając dodatkowe założenia zdroworosądkowe, np.
a) prawdopodobniestwa wartości nie zależą od konkretnego wsadu, lecz od 'średniego wsadu'. Wprawdzie zysk mniejszy ale prostsze. Konkretne prawdopodobniestwa w dekompresorze chyba nie są już potrzebne.
b) jakieś sortowanie
c)drzewo jako tablica, w jakiś częsciach 16/32/64 czy jakoś tak pozwala nie posiadac typowych dla drzew wskażników. Bit za bitem prawo/lewo.

Na pewno sie da mniejsze.

bis · Accepted Answer

Twoje wyobrażenie o tym algorytmie kompresji jest troche naiwne.Nie wiem z kąd czrpiesz wiedzę o kompresji Huffmana, ale wyrzuć to i znajdż coś innego (np. książkę pt. "Wprowadzenie do kompresji danych" Adama Drozdka).
W tym kodowaniu każdemu z kodowanych znaków przypisuje się inny ciąg bitów, ale to nie oznacza że każdy z tych ciągów musi mieć inną długość. Optymalny algorytm tak dobiera te ciągi (na podstawie ich prawdopodobieństw, a w Naszym wypadku miarą tego prawdopodobieństwa jest czestotliwość bajtów w pliku), budując binarne drzewko, aby końcowy efekt kodowania był najkrótszy możliwy. Wtedy najdłuższy ciąg będzie długości 2*(log2(N))-1. Zauważ ze jest to przekodowanie z 256 kodów na podzbiór z ~32000 kodów.
Jak to już wcześniej pisałem, dokładniejsze opracowania skupiają się na takich realizacjach algorytmu które są przydatne do kodowania w telekomunikacji (kody znakowe, wspólne tablice "średnich" częstości itd. itp). W Twoim przypadku lepiej jest dokładnie przemyśleć i zrobić to pod specyfike problemu kodowania bitstream XILINX.
Ja wybrałem kodowanie bajtów bo na początku założyłem sobie że algorytm dekompresji musi byc mały, nie uzywać RAMU i wmiarę szybki. Nie próbowałem nawet dla innych długości (można by było go robić dla długości będących dzielnikami liczby 32 (tyle bitów liczy pojedyncze słowo programujące XILINX). Samym kodowniem Huffmana uzyskiwałem kompresję na poziomie 60%. Problem w tym że w bitstream Xilinxa "entropia" jest dosyć duża i więcej po prostu się nie uda (przynajmnieh czystym Huffmanem)

bis

bis · Accepted Answer

Proszę bardzo, (wystarcza kartka paieru i ołówek):
0,37 - 0 1bit
0,32 - 100 3 bity
0,16 - 101 3 bity
0,08 - 110 3 bity
0,02 - 1110 4 bity
0,01 - 1111 4 bity

W algorytmie Huffmana nigdy nie powstanie takie drzewko jak narysowałeś
kształt rozkładu drzwka nie zależy od prawdopodobieństwa. Prawdopodobieństwa jedynie decydują na jakich końcach lub rozwidleniach kończysz. A samo drzewko jest zawsze binarne i symetryczne ale z poodcinanymi fragmentami.

bis

no dobra, pomyliłem się
0,37 - 0 1bit
0,32 - 100 3 bity
0,16 - 101 3 bity
0,08 - 110 3 bity
0,04 - 1110 4 bity
0,02 - 11110 5 bitów
0,01 - 11111 5 bitów

bis · Accepted Answer

To dlatego że algorytm Shanona-Fano jest niemal optymalny, a dla prawdopodobieństw zblizonych do odwrotności potęg dwójki jest optymalny. Huffman jest zawsze optymalny więc w tym przypadku wynik kodowania jest nie do odróżnienia.

bis

Trochę odświeżyłem sobie wiedzę. rzeczywiście w pewnych realizacjach algorytmu Huffmana może powstawać takie drzeko jak narysowałeś ale te sposoby bazują na fakcie że średnia długość kodu jest niezmienna. Jak już powiedziałem bazowe opracowania nie są najlepiej dostosowane do tego zadania które opisałeś. W algorytmie Huffmana można uzyskać ten sam efekt końcowy na wiele sposobów Ja zastosowałem sposób który jednocześnie daje rozwiązanie z minimalną długością słów kodowych. Efekt końcowy jest taki sam (średnia długość słowa kodu jest niezmienna). W jednych realizacjach po prostu sumuje sie prawdopodobieństwa i porównuje w węzłach (wtedy może powstać takie drzewko jak twoje). W innych w każdym kroku sie je jeszcze sortuje i bierze te najmniejsze, wtedy powstaje ten wariant z minimalną długością. Dla uproszczenia porównań wystarcza pomnożyć prawdopodobieństwo kodu przez uzyskaną długość kodownia dla tego kodu i zsumować dla wszystkich kodów. Niezależnie od metody końcowy wynik będzie taki sam.

Dodano po 3 [godziny] 3 [minuty]:

Twoja uwaga nie dawała mi spokoju i zamiast nadal pisać z głowy (czyli z niczego

) odgrzebałem żródła i literaturę i zrobiłem parę sprawdzeń na papierze. Serdecznie przepraszam wszystkich którym namieszałem tymi głupotami które wypisywałem wcześniej. W moim oprogramowaniu rzeczywiście zastosowałem kodowanie Shanona-Fano bo to pozwoliło mi na uzyskanie tej sensownej długosci słów kodujących. Moje poprzednie dywagacje o długości kodów w Huffmanie są beznadziejnie nieprawdziwe, a Huffman nie bardzo sie do tego nadaje. Ale parametry które podałem są jak najbardziej prawdziwe tyle że zamiast Huffmana trzeba wstawić Shanona-Fano w miejsce nazwy zastosowanej kompresji. Jeszcze raz bardzo przepraszam.

bis

Father · Answer

Najłatwiej będzie chyba znaleźć przykłady kompresji/dekompresji oparte o algorytm formatu zip... nawet je gdzies miałem, ale przeszukanie dysku zajmie mi trochę czasu więc może szybciej bedzie w google...

JacekCz · Answer

jest API do programu 7Zip, jest bez ograniczen licencyjnych i mocnie zagęszcza. Algoryt ZIP jest patentowany, chyba tylko unzipy są dostepne. jest też gzip. ALE a) Na pewno ambitnie używają 32 bitów (pytanie czy nie trafisz na mniej wspieramy na AVR element), b) spore użycie RAM-u (szukaj o opcji _LZMA_IN_CB) i c) funkcje systemowe (do alokowania, odczytu z plików itd.) których na gołej atmedze nie masz. Być może są porty specjalnie na uP bez systemu, alokowania, io.... Kompetentnie ci doradzi ktoś, kto robił to na uP. Warto tego poszukać. Disclaimer: jest to czysto rabinistyczna dywagacja, bo nie robiłem tego. Teraz praktyka: Masz też dylemat pomiędzy rozmiarem kodu dekompresera a zyskiem z kompresji. Kiedyś amatorskim programem (na 8085) ściskałem rozmiar tablic, wiedząc o typowych częstościach danych. Były jakieś wyniki, a kod dekompresji to było 100-200 bajtów. Był program serwisowy który tworzył tablicę ze skompresowanym obrazem jako hex asemblera. (Głowny zysk to schowanie stringów przed ciekawskimi.) Potem zrobiłęm bardziej agresywnie, był większy zysk, ale zapomniałem że kod się zwiększył i miałem stratę. Jeśli z góry wiesz o częstości danych (90% zer, 2% 0x07 itd) prosty amatorski algorytm może mieć sens. Być może są gdzieś zupełnie łatwe wprowadzenia o co chodzi z kompresją. Koduje się na zmiennej długości słowa, najczęstsze najkrócej (np. 3 bity na najczęstszy znak, 11-13 bitów na najrzadszy). Robi się z tego silnie niezrównoważone drzewo binarne - nie jestem w stanie zrobić ci wykładu. Kojarze jak przez mgłę (to 20 lat): jakies binarne badanie bitów, jakby chodzenie po drzewie prawo-lewo, statyczna tablica char[256] do ostatecznego zdekodowania. (Profesjonalne kompresery poznają statystykę,są uniwersalne ale większe)

Konto nie istnieje · Answer

No właśnie też o tym myślałem - algorytm Huffmana się kłania Zrobiłem szybko testy (pliki codhuff.c i dcodhuff.c na google ), wsad do FPGA udało sie zmniejszyć z 97652 do 70525, ale z kolei nie zoptymalizowany program dekodujący to zajmuje 17878bajtów czyli oszczędność rzędu 97652-70525-17878=9249 bajtów... Zysk taki sobie.... P.S. Okazuje się, że czysty zestaw procedur dekodujących zajmuje w AVR niecałe 3kB... Zysk rośnie o ponad 14kB, czyli w sumie do ponad 23kB, co jest już wystarczające jak dla mnie...

JacekCz · Answer

Zaciekawilo mnie to, jakbyś mógl bez szkody dla siebie czy własciciela pochwalić sie fragmentami soursów byłoby fajne.

Konto nie istnieje · Answer

U mnie niestety Huffman odpada 4kB RAM w At128 to jednak za mało... Zostaje mi żałosne (ale i banalne z drugiej strony) RLE (RLC) ?

JacekCz · Answer

Dzięki za przypomnienie Hufmanna. To co lata temu robilem, to było bardziej podobne do Huffmana niż niepodobne.
Przynajmniej w swojej idei. Może sie wywodziło z jakiegoś artykułu... shifty bitowe na procesorku robiły się aż do czerwoności ;-)

O ile kompresor ma konkretne wymagania RAM, to robisz to jak rozumiem na PC (czy to tylko moje wyobrażenie?).
Dekompresor (nie potrafie matematycznie udowodnić, nos mi mówi) ma znacznie mniejsze, z ok 256-512 bajtową tablicą stałych

Konto nie istnieje · Answer

Kompresor oczywiście robię na PC.
W AVR ma być dekompresor.

Co do zapotrzebowania na pamięć, to na początku też tak myślałem...

W źródłach jakie znalazłem
http://library.thinkquest.org/C008719/frames/algorithms/huffman/DCODHUFF.C

podczas odbudowywania drzewa binarnego tworzona jest 257-elementowa tablica struktur o nazwie

codes_table

Każda struktura zbudowana jest w sumie z 35 bajtów, co daje w sumie 8224bajty na samą tylko tabelkę codes_table...

Konto nie istnieje · Answer

Hmm, dla zbioru N symboli, długość kodu będzie sięgać N-1. Dla zbioru 256 symboli (liczby 8-bit) długości kodu będą sięgać 255bitów. Skąd 15 bitów? 16 symboli = 4 bity = operowanie na nibblach ? W załączniku prawdopodobieństwa dla symboli z jednego ze wsadów, który chcę kompresować/dekompresować....

Konto nie istnieje · Answer

Kompresją danych zajmuję się poraz pierwszy i nawet mi się temat podoba. Moje źródła informacji: i W ramach polemiki z Twoim wzorem proponuję Ci narysowanie drzewka binarnego dla zbioru symboli o prawdopodobieństwach: 0,01; 0,02; 0,04; 0,08; 0,16, 0,32 i 0,37 (w sumie P=1) wg algorytmu huffmana i podanie jaka jest długość słowa kodowego dla symbolu 0,01... 7 symboli, wg ciebie powinno dać kod maks 2*(log2(7))-1

Konto nie istnieje · Answer

Wybacz, ale odnoszę wrażenie, że opisujesz kodowanie shannon-fano.... A nie huffmana...

Konto nie istnieje · Answer

Okazuje się, że jednak nie taki Huffman straszny, jak go malują

Przerobiłem trochę procedurkę
http://library.thinkquest.org/C008719/frames/algorithms/huffman/CODHUFF.C
(przerobiony plik w załączniku, tworzy dodatkowo plik CODES.TXT z podsumowaniem)

i okazało się, że wszystkie moje wsady da się zakodować za pomocą słów kodowych nie dłuższych niz 15 bit....

Co nie przeczy bynajmniej temu, że słowa kodowe mogą być 255 bitowe...

Załączone podsumowanie dotyczy wszystkich wsadów do FPGA, jakie mają być przeze mnie kompresowane/dekompresowane.
Kody otrzymane w podsumowaniu postanowiłem użyć "na sztywno" podczas kompresji i dekompresji danych (będą wspólne dla wszystkich wsadów).
Nie będzie to na 100% Huffman, ale metoda powinna dać zbliżony stopień kompresji.
Procedura dekompresji danych powinna być dzięki temu o wiele prostsza.
Porównam wyniki kompresji przy pomocy "normalnego" Huffmana i przy pomocy podanych niżej kluczy i poinformuje o różnicach...
-------------------------------------------------------------------------------
Właśnie skończyłem porównania dla wszystkich wsadów i jestem zadowolony z tego, co udało mi się osiągnąć

Zastosowanie w kompresji kluczy podanych niżej, wyznaczonych wspólnie dla wszystkich wsadów do FPGA (mam ich 11

), do kompresji poszczególnych wsadów spowodowało, że objętość pliku była większa w porównaniu do pliku spakowanego "normalnym" huffmanem o nie więcej niż 1,52%...
W porównaniu uwzględniono fakt, że dane nt. kluczy są częścią wsadu (dodatkowe 1kB = 256*(bajt na symbol+bajt na dł.kodu+2bajty na kod)...
Rozmiar wsadu do FPGA udało się w najgorszym przypadku zredukować z 96752 bajtów do 72155bajtów.
Nie jest to duży uzysk w porównaniu z tym co otrzymał kolega bis, ale mnie satysfakcjonuje.
Prawdopodobnie jest to spowodowane tym, że wszystkie wsady do FPGA praktycznie w 100% zajmują zasoby XILINX-a (niektóre trzeba było optymalizować dodatkowo aby móc je wepchnąć do XILINXA

).

P.S. Dzięki uprzejmości kolegi bis dokonaliśmy porównania metod kompresji jego i mojej.
Okazało się, że wyniki uzyskane przeze mnie wcale nie odbiegają znacząco od tego,
co można uzyskać metodą opisywaną przez kolegę bis[RLE+Shannon-Fano]

I za to właśnie kolega bis dostaje "pomógł".

Kolega JacekCz dostaje "pomógł" za pomysł "średniego wsadu".

Na szybko zaimplementowana kompresja RLE dała mi zysk nieco ponad 12kB. "Zmodowany" Huffman da mi zysk ok 24kB. I o to chodziło...

P.S. Pierwszy załącznik był oryginalnym plikiem (tym z linka wyżej). Teraz załadowałem wersję ze zmianami...

###########################################################################
Zaimplementowałem napisane przeze mnie procedury na AT128.
Mimo, iż najpierw przetestowałem algorytmy własnego pomysłu na PC-cie,
gdzie udało mi się je przyspieszyć ponad 133razy
(średnia ilość porównań podczas przeszukiwania listy kodów spadła z nieco ponad 217 do 1.6

[całkowita ilość porównań z ponad 121mln750tys na 914tys])
to dekompresja wsadu do rozmiaru 97652 bajtów zajmuje niestety ok. 45 sekund przy zegarze 8MHz...

Teraz pracuję nad optymalizacją szybkości dekodowania wsadu.
Chętnym mogę pokazać źródła w C (na PC-ta) i dla AVR (kompilator: ICCAVR 6)....

###########################################################################
Ostatni update: Doszedłem do sytuacji, że rozpakowywanie wsadu i programowanie XILINXa trwa już "tylko 13 sekund".

Jak się łatwo domyśleć zostało to okupione znacznym zwiększeniem rozmiarów procedury dekodującej (z nieco ponad 700bajtów do ponad 3kB).

Pomysł stałych wartości kodów okazał się strzałem w 10-kę.
Głównie dzięki temu możliwe było przyspieszenie procesu dekodowania.
Na podstawie spostrzeżeń nt. właściwości kluczy i po odpowiednim ich umieszczeniu (posortowaniu) we flashu dekompresja działa ponad 3x szybciej niż na początku...

To tyle wynurzeń z mojej strony. Temat zamykam definitywnie.
POZDRAWIAM.

Algorytm kompresji dla wsadu FPGA w ATmega 128/2561 - sugestie?

Post #1

Post #2

Post #3

Post #4

Post #5

Post #6

Post #7

Post #8

Post #9

Post #10

Post #11

Post #12

Post #13

Post #14

Post #15

Post #16

Post #17

Post #18

Podsumowanie tematu