Elektroda.pl
Elektroda.pl
X
Please add exception to AdBlock for elektroda.pl.
If you watch the ads, you support portal and users.

Analizer tekstu w Javie a możliwości .

GPP 14 Jun 2012 15:49 782 3
  • #1
    GPP
    Level 10  
    Witam.
    Pisze program, którego zadaniem jest analiza tekstu.
    Tekst jest wyciągiem z książki i zawiera 428 745 znaków.

    Program ma najpierw usunąć wszelkiego rodzaju formatowanie oraz wielkie litery, następnie wyodrębnić zdania, zdania które się powtarzają oraz poszczególne wyrazy.
    Następnie należy wyróżnić ilość całkowitą zdań, ilość zdań-duplikatów, ilość wyrazów oraz przedstawić 100 najpopularniejszych wyrazów.
    Każde zdanie musi mieć własny identyfikator i zdania które się powtarzają powinny zostać usunięte z listy.


    Początkowo wszystko szło dobrze i dzięki prostym operacjom przy użyciu BufferedReadera plik tekstowy został wczytany do struktury String skąd przeprowadzono dalsze operacje.

    Pierwszą trudność powoduje poszukiwanie duplikatów. Nie wiem czy słusznie, ale zastosowałem tu strukturę HashMap<Integer, String> - dzięki temu istnieje możliwość przeszukiwania duplikatów, a jednocześnie istnieje możliwość przypisania konkretnemu zdaniu unikatowego identyfikatora.

    Zastanawiam się czy istnieje bardziej efektywna możliwość?

    pozdrawiam
  • #2
    McMonster
    Level 32  
    Usuwanie formatowań i być może duplikatów można wykonać za pomocą wyrażeń regularnych.
  • #3
    sedr
    Level 17  
    Może zamiast hashmapy użyj treemapy?
  • #4
    GPP
    Level 10  
    Usuniecie formatowan wykonalem przy pomocy prostego wyrazenia reguralnego:

    Code: java
    Log in, to see the code



    A jeśli bym użył treemapy to jaka by ona oferowała przewagę nad hashmapą?