Elektroda.pl
Elektroda.pl
X
Proszę, dodaj wyjątek www.elektroda.pl do Adblock.
Dzięki temu, że oglądasz reklamy, wspierasz portal i użytkowników.

Skanowanie dokumentu - z rozpoznawaniem tekstu i z automatyczną "segregacją

kuha 24 Wrz 2016 21:27 669 5
  • #1 24 Wrz 2016 21:27
    kuha
    Poziom 2  

    Witam
    Mam takie pytanie do specjalistów, potrzebuje program który będzie rozpoznawał tekst w skanowanym dokumencie i zapisywał go z nazwą rozpoznaną z tekstu i w odpowiednim folderze też wg tekstu z dokumentu.
    W jakim języku najłatwiej było by taki program napisać i jaki jest to stopień trudności. Szczerze to tylko liznąłem programowania na studiach i chciałbym spróbować swoich sił w takim zadaniu, tylko nie chce się przeliczyć :-)

    0 5
  • #2 24 Wrz 2016 21:59
    Dydelmax
    Poziom 34  

    Witam.

    kuha napisał:
    W jakim języku najłatwiej było by taki program napisać

    Jakie języki znasz na chwilę obecną?
    kuha napisał:
    jaki jest to stopień trudności

    To zależy od tego jak złożony ma być algorytm rozpoznawania tekstu, uwzględniający różne "utrudnienia" w odczycie tekstu przez komputer (niewyraźne pismo, niestandardowe czcionki, rozpoznawanie tekstów wielojęzycznych, różne rozdzielczości skanów, słaba jakość skanu wynikająca z zachowanego w złym stanie oryginału, rozmyty/rozciągnięty/zdeformowany tekst przy "granicach" stron np. przy skanowaniu książek, rozpoznawanie takich obiektów jak tabele, wykresy, diagramy itp.)
    Czytałeś może o OCR? https://pl.wikipedia.org/wiki/OCR
    Poczytaj również o programach takich jak ABBYY FineReader, FreeOCR.net, OmniPage Professional.
    Pozdrawiam

    0
  • #3 24 Wrz 2016 21:59
    tikka.masala
    Poziom 19  

    kuha napisał:
    Witam
    Mam takie pytanie do specjalistów, potrzebuje program który będzie rozpoznawał tekst w skanowanym dokumencie i zapisywał go z nazwą rozpoznaną z tekstu i w odpowiednim folderze też wg tekstu z dokumentu.
    W jakim języku najłatwiej było by taki program napisać i jaki jest to stopień trudności. Szczerze to tylko liznąłem programowania na studiach i chciałbym spróbować swoich sił w takim zadaniu, tylko nie chce się przeliczyć :-)


    Chcesz to pisać "od zera"?

    0
  • #4 24 Wrz 2016 22:11
    kuha
    Poziom 2  

    Na początku dziękuję za szybkie odpowiedzi.
    Skanowane dokumenty to raporty (każdy według szablonu). Chciałbym, żeby nazwa pliku była numerem dokumentu i aby były segregowane w folderze z nazwą części z tego raportu. Raporty te to generowane dokumenty pdf bez rysunków wykresów itp.

    Dydelmax napisał:
    Jakie języki znasz na chwilę obecną?

    Miałem styczność trochę z Delphi i Java.

    tikka.masala napisał:
    Chcesz to pisać "od zera"?

    Nie ukrywam, że trochę się wystraszyłem. ;-)

    0
  • #5 25 Wrz 2016 11:02
    JacekCz
    Poziom 36  

    kuha napisał:
    Na początku dziękuję za szybkie odpowiedzi.
    Skanowane dokumenty to raporty (każdy według szablonu). Chciałbym, żeby nazwa pliku była numerem dokumentu i aby były segregowane w folderze z nazwą części z tego raportu. Raporty te to generowane dokumenty pdf bez rysunków wykresów itp.


    Mam wrażenie wkładanie spodni przez głowę. Skąd pochodzą te PDF? Masz ich źródło?

    kuha napisał:

    Dydelmax napisał:
    Jakie języki znasz na chwilę obecną?

    Miałem styczność trochę z Delphi i Java.

    tikka.masala napisał:
    Chcesz to pisać "od zera"?

    Nie ukrywam, że trochę się wystraszyłem. ;-)


    Z posta wydaje się, że "styczność" mocno pobieżna. Myślę że odpuść.
    Nie wystarczy pobieżna znajomość, trzeba będzie ugryźć ambitne biblioteki (np PDF-owe jeśli OCR da w tej postaci albo masz źródłowe pdf, albo offisowe)

    0
  • #6 25 Wrz 2016 14:58
    tikka.masala
    Poziom 19  

    Zobacz co oferują firmy sprzedające pakiety OCR. Ostatni raz jak miałem styczność z OCR (jakieś 15 lat temu) to dobry był FineReader. Myśle że takie pakiety mają jakieś języki skryptowe albo mechanizmy wspomagające automatyzację.

    0