logo elektroda
logo elektroda
X
logo elektroda
REKLAMA
REKLAMA
Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Darmowy program OCR do konwersji PDF na TXT bez instalacji

Browork 13 Cze 2014 09:05 2583 9
REKLAMA
  • #1 13703173
    Browork
    Poziom 11  
    Posty: 28
    Pomógł: 2
    Ocena: 8
    Witam,
    poszukuję jakiegoś programu do rozpoznawania tekstu z pliku o formacie pdf.

    Najlepiej gdyby oprogramowanie było darmowe bo ma służyć tylko do zczytywania listy cyfr, takiej jak w załączniku i zapisywał plik w formacie .txt

    Gdyby była możliwość to dobrze by było gdyby nie była wymagana instalacja programu, dzięki temu pominąłbym część związaną z walką z weterynarzami w IT, bez których zgody i interwencji nie będę mógł tego nawet zainstalować... A próba wyjaśnienia im, że program jest potrzebny może potrwać.
    Załączniki:
    • plik20140613082621.pdf (250.24 KB) Musisz być zalogowany, aby pobrać ten załącznik.
  • REKLAMA
  • #3 13703686
    Browork
    Poziom 11  
    Posty: 28
    Pomógł: 2
    Ocena: 8
    Niestety sprawdzić będę mógł dopiero jak wrócę z roboty, bo większość serwisów,z których można coś pobrać jest poblokowana. Zainstaluję u siebie w domu a następnie przeniosę do komputera w robocie na USB :|
  • REKLAMA
  • REKLAMA
  • #5 13703768
    Browork
    Poziom 11  
    Posty: 28
    Pomógł: 2
    Ocena: 8
    alrekus(_at_)gmail.com
  • #7 13705115
    Konto nie istnieje
    Konto nie istnieje  
  • Pomocny post
    #8 13705133
    Markos80

    Specjalista Automatyk
    Posty: 1854
    Pomógł: 472
    Ocena: 210
    Ten który podałem nie wymaga instalacji.
    Konto firmowe:
    PUMPA
    Widok 7, Łuczyce, 32-010 | Tel.: 502XXXXXX (Pokaż) | Strona WWW: www.pumpa.pl
  • REKLAMA
  • #9 13723442
    Browork
    Poziom 11  
    Posty: 28
    Pomógł: 2
    Ocena: 8
    Ściągnąłem podany program Capture2Text oraz go przetestowałem. Sprawuje się całkiem nieźle, przynajmniej w porównaniu dotych internetowych, czy tych, o których opowiadała mi koleżanka z roboty :)

    Jedynie szkoda, że powyżej 3 linijek zaczyna rozpoznawać tekst kolumnami a nie wierszami, ale myślę, że to kwestia minimalnie ukośnego skanowania.
  • #10 13724029
    MCbx
    Poziom 28  
    Posty: 1541
    Pomógł: 14
    Ocena: 26
    Jakość tych cyfr jest bardzo dobra i jedynym problemem, z którym OCR sobie nie poradzi są niewielkie cętki. Ja bym spróbował tak:
    1. Pakiet Imagemagick - program convert żeby z PDFa zrobić obrazek np. PNG
    2. Program Tesseract do rozpoznania
    To można robić automatycznie z linii poleceń, więc działanie na powiedzmy 200 plikach nie sprawi problemów.
    Teraz uwaga: Tesseract Cię będzie męczył z kolumnami, rzekomo sam wie lepiej jak to zrobić :). Na to należy użyć opcji -psm, więc całe polecenie będzie wyglądać tak:
    convert -density 300 -morphology Open Octagon -depth 1 plik20140613082621.pdf temp.png
    tesseract temp.png -psm 6 plik.txt
    del temp.png

    Co robię w Convercie: To jest bardzo uproszczona i nieco niepewna metoda usuwania tych kropek.
    Oba programy można ściągnąć w wersji portable.

    Wynik mi wyszedł taki:
    nr x y H
    26071 —29145.22 288970.34 -1.0
    26072 —29136.36 288972.67 198.76
    26073 —29093.60 288980.46 199.95
    26142 —29066.752 288976.680 -1.0
    26143 —29066.964 288977.657 199.92
    26144 —29067.850 288978.081 199.93
    26145 —29076.889 288975.995 199.46
    26146 —29077.381 288976.234 199.43
    26147 -29078.343 288979.878 199.60
    26148 —29079.205 288980.536 199.61
    26149 —29084.749 288979.370 199.62
    26150 —29089 980 288980.658 199.57
    26151 —29089.987 288980.406 199.54
    26152 -29089.982 288980.212 199.54
    26153 —29087.481 288979.900 199.14
    26155 -29145.362 288970.088 198.84
    26156 —29145.426 288970.261 198.79
    26157 —29145 546 288970.399 198.81
    26159 —29145.510 288970.051 198.75
    26160 —29146.219 288968.938 198.30
    26161 —29146.987 288967.284 197.93
    26162 —29149.051 288966.829 197.98
    26164 —29146.795 288968.010 198.21
    26165 -29145.832 288970.002 198.70
    26166 —29155.196 288965.555 198.28
    26167 —29156 168 288964.692 198.34
    

    Wynik nie jest idealny, ale jest, można popróbować bawić się progowaniem w Convercie, żeby był lepszy.

Podsumowanie tematu

✨ Użytkownik poszukiwał darmowego programu OCR do konwersji plików PDF na TXT bez potrzeby instalacji. Został polecony program Capture2Text, który działa bez instalacji i sprawdził się w testach, choć zauważono problemy z rozpoznawaniem tekstu w kolumnach. Inna propozycja to użycie pakietu Imagemagick do konwersji PDF na obraz oraz Tesseract do rozpoznawania tekstu, co można zautomatyzować w linii poleceń. Użytkownicy podkreślili, że jakość rozpoznawania cyfr jest dobra, ale mogą wystąpić problemy z niewielkimi cętkami na obrazach.
Wygenerowane przez model językowy.
REKLAMA