Elektroda.pl
Elektroda.pl
X
Elektroda.pl
Please add exception to AdBlock for elektroda.pl.
If you watch the ads, you support portal and users.

Eksport PDF do HTML lub innego formatu

22 Oct 2007 20:45 2038 9
  • Level 17  
    Witam Koleżanki i Kolegów
    Poszukuję programu (najlepiej open-source) otwierającego, z lini poleceń, PDFy na konkretnej stronie. Miałby zostać wykorzystany jako implementacja 'pomoc ?' w projekcie. Powinien działać pod Linuksem i Windows. Mógłbym PDFa pociąć ale zależy mi na zachowaniu praw autorskich (choć i tak nie wiem czy wykorzystanie jako całość nie naruszy ich... to użytkownik dokładałby pdf do projektu, ja tylko zrobię interfejs).
    Jeśli nie program to przenośną bibliotekę (java?) dającą możliwości wykonania tego (byle nie 'pdf viewer' od podstaw).
    Jeśli nie biblioteka to proszę o radę: jaki program najlepiej wyeksportuje zawartość PDFa do powiedzmy HTML lub innego formatu. Ważne (krytyczne) jest zachowanie tabel w dobrym stanie (pdf to datasheet mikrokontrolera, tabele są częścią opisów rejestrów).
    Piotr

    Post poprawiłem - krzychoocpp
  • Helpful post
    VIP Meritorious for electroda.pl
    Witam, jeśli miałoby to być rozwiązanie jak najbardziej przenośne, to polecam przekonwertować na HTML. Narzędzi jest wiele, najlepiej sprawdzić które da najlepszy efekt, zacząć można od tego na stronie Adobe: http://www.adobe.com/products/acrobat/access_onlinetools.html

    Założenia czytnika PDF odpowiadającego koledze najlepiej spełnia Adobe Reader, ale nie każdy ma go zainstalowanego i nie każdy go lubi, HTML jest dużo pewniejszym wyjściem.

    Pozdrawiam, Krzysztof.
  • Level 17  
    Tak, chyba jednak HTML( na razie konwerter z Twojego linku mieli dokument... ponad pół godziny :) Jeśli nie on to jakiś inny to zrobi). Zdecydowanie łatwiej z takim dokumentem pracować.
    Od razu odrzuciłbym PDFa ale zależy mi na zrobieniu 'czystej licencyjnie' aplikacji a jak przetłumaczyć to ?:
    Quote:
    No license, express or implied, by estoppel or otherwise, to any intellectual property right is granted by this document or in connection with the sale of Atmel products

    HTML w oddzielnej nieoficjalnej paczce?
    Poza tym AdobeReader z lini może chyba tylko brać parametry drukowania czy spadnięcia do paska. Nie otworzy dokumentu na konkretnej stronie.
    Może mógłbyś mi pomóc w kwestii dostosowania aplikacji do licencji GPL lub podobnej? Może znasz kogoś kto by mógł. Chciałbym w końcu zamknąć coś w jakąś formę( kiepskie ;) ).
    Online converter nadal mieli, przypuszczam że plik został już dawno odrzucony... teraz biorą mnie na przetrzymanie
    W opisie działu, w językach, nie ma wyróżnionego Pythona a pewno zgłoszę się tu za niedługo z jajkiem tego gada. Chyba nie zostanę wyrzucony? :)
    Ograniczyłem apostrofy, chyba rzeczywiście przesadzam z nimi.
    Dzięki
  • GSM specialist
    Poszukaj modułów pdf->html. Np.coś w stylu PDFCX.
    A najlepiej jednak zrobić pełnego helpa *.hlp.
  • VIP Meritorious for electroda.pl
    Przeoraszam że długo nie odpisywałem. Co do tego tekstu, oznacza on chyba mniej więcej, że dokument nie daje żadnej określonej licencji na własność intelektualną zawartą w nim. Co oznacza w praktyce nie mam zbyt wielkiego pojęcia, to prawniczy tekst.

    Ja, dla pewności proponowałbym rozwiązanie z nieoficjalną paczką :)

    piotrkopec wrote:
    Chyba nie zostanę wyrzucony ?

    Nie :)

    Pozdrawiam, Krzysztof.
  • Level 17  
    Rzeczywiście, nawet po przetłumaczeniu to prawnicze zdanie niewiele mówi.
    Ten online converter akrobata prawdopodobnie nie może przekształcić pdfa bo jest on chroniony. To by tłumaczyło brak htmlowej wersji tego dokumentu w google. Chyba żeby ściągnąć zabezpieczenie i wysłać ponownie? :)
    Po drodze wypróbowałem dwa otwarte rozwiązania.
    Pierwszy to 'pdf2html'http://freshmeat.net/projects/pdf2html/, strony pdfa są przez niego zamieniane na png( z pomocą ghostscript). Drugi to 'pdftohtml' z paczki 'proppler-utils' który robi to samo( tyle że ten wrzucił jakieś śmieci do png) Wszystko byłoby piękne i bajecznie łatwe( już uruchomiłem 'pomoc' jako dynamiczne tworzenie htmla[ parę linijek, może być po kilka png na stronie, bardzo fajne] i wyświetlanie go za pomocą firefoxa) gdyby nie to że 600 stron w png( w rozdzielczości 70dpi która wydaje się minimum) zajmuje 26MB. Gzipowane 21MB. Bez tragedii ale nie wygląda to dobrze( założenie to kilka takich paczek pomocowych).
    Nie uruchamiałem jeszcze sugerowanego przez kolegę 'Fryszo' PDFCX, spróbuję. Z tego co widziałem to nie jest darmowy więc na cuda nie ma co liczyć. Ale może jak zje krakersa to przemówi po ludzku. Tyle że to już drugie przestępstwo ;)
    Same problemy z tymi pdfami. Dlaczego są aż tak popularne? W sumie tylko techniczne rysunki powinny być w nich, reszta w jakimś odt. Może to o te kiepskie ,ale zawsze jakieś tam, zabezpieczenia chodzi?
  • GSM specialist
    Skalowalność! To przez to wszystko. A teraz jest trend nawet nieskalowalne rzeczy zamykać w 'pdf' i tu sensu nie widzę.
  • Level 17  
    Tak. Pdfy są wszędzie. Oby maile i forum zostało oszczędzone( reszta już przepadła, przynajmniej do czasu gdy ktoś się kapnie że nie mp3 ani filmy( ciiichutko;) ) zajmują najwięcej na jego dysku tylko te milusie milusie pdfy.
    Chwilę zwlekałem z odpowiedzią bo chciałem zobaczyć to PDFCX. Myślałem że to czysta biblioteka a tam w paczce była również aplikacja do przetestowania. Wyprodukowała(zaznaczę że szybko) plik htm ale po otworzeniu nadzieje prysnęły. Po tabelach ani śladu. Wszystko w proszku.
    Wydaje mi się że jedyną możliwością uwolnienia się od 'png' jest jakiś cudowny program OCR. Czy mieliście może styczność z czymś co w miarę zachowywało formę źródła?
    Lub czy i czy cokolwiek zyskam konwersją 'png'=>'jpg'?
  • VIP Meritorious for electroda.pl
    Konwersja PNG → JPG to strata jakości.

    PDF to bardzo dobry format (tak, pliki PDF można edytować, również darmowymi programami). PDF jest bardzo przenośny. Tworzę dokument w LaTeXu, generuję PDF i otworzę go właściwie wszędzie, bez większych problemów. Specyfikacja PDF jest otwarta. PDF Nie będzie zamiennikiem ODT, ale bardzo dobrze spełnia swoją rolę.

    Co do tematu, może najprościej będzie dodać w menu programu (jeśli bedzie miał GUI) pozycję "Online documentation", przynajmniej ja bym tak w tej sytuacji zrobił - to rozwiązanie ma dużo wad, ale jest chyba lepsze od przepisywania zawartości PDFa.

    Pozdrawiam, Krzysztof.
  • Level 17  
    Niezbyt rozumie online documentation( przepisanie pdf'a i wystawienie go na strone? chyba nie, co nie?).
    Zalet tego formatu jest na pewno wiele. Wiem że jest otwarty, ale jak pisałem, nie mam zdolności, a teraz nawet kszty chęci, robić do tego przeglądarkę.
    Całego tematu nie byłoby gdyby acrobat miał( a może ma?) tyciusią opcję otwierania dokumentu na konkretnej stronie. Nie widzę też powodów dla których mieliby ją kiedykolwiek dodać.
    Te trzy literki będą mi się jeszcze długo bardzo źle kojarzyły.
    Dziękuję Wam za odpowiedzi
    i pozdrawiam
    temat na kłódkę
    Piotr