1. fotoaparati
  2. Car Audio & Electronics
  3. Home Audio
  4. Osobni Audio
  5. TV
  6. Pametna kuća
  >> Hrvatska Electronic Technology >  >> Pametna kuća >> Pametan život

Kako čitati PDF datoteku u Javi

Nije teško čitati PDF datoteke u Javi koristeći knjižnice koje su lako dostupne. Čitanje PDF datoteka omogućuje pisanje Java programa koji mogu obraditi tekst u tim datotekama. Jedna opcija za čitanje PDF datoteka je besplatna biblioteka PDFBox otvorenog koda dostupna od Apachea. Razvojna platforma Eclipse Java olakšava ovaj posao i upravlja bibliotekama koje ćete preuzimati. Morate biti upoznati s Java programiranjem da biste mogli koristiti ove Java biblioteke.

Prikupite potrebne knjižnice

1. korak

Preuzmite Java JDK sa Sunove web stranice. Ovo je izvršna datoteka koju možete instalirati na svoj sustav tako da je pokrenete. Dostupne su verzije za Windows, Mac i Linux. Kliknite crveni gumb "Preuzmi". Spremite datoteku pod nazivom "jdk-6uxx-windows-xxx.exe" kada se to od vas zatraži. Spremite ovu datoteku i zatim dvaput kliknite na nju da pokrenete Java instalacijski program.

2. korak

Preuzmite razvojni sustav Eclipse i raspakirajte ga u direktorij najviše razine. Odaberite "Eclipse IDE for Java Developers." Ovo će pokrenuti preuzimanje "eclipse-java-galileo-SR2-win32.zip." Dvaput kliknite na datoteku da je raspakirate nakon završetka preuzimanja. Odaberite lokaciju korijenskog direktorija "C:" da raspakirate Eclipse.

3. korak

Pokrenite Eclipse dvostrukim klikom na "eclipse.exe" u direktoriju koji ste upravo stvorili raspakiranjem eclipse zip datoteke. U sustavu Eclipse kreirajte projekt pod nazivom "PrintPdf." Odaberite "Datoteka", zatim "Novo", a zatim "Java projekt." U dijaloški okvir koji se pojavi upišite naziv projekta "PrintPdf". Provjerite je li odabran radio gumb koji kaže "Stvori zasebne mape za izvorne i klasne datoteke." Kliknite "Završi."

4. korak

Napravite mapu "lib" u svom "PrintPdf" projektu. Desnom tipkom miša kliknite projekt "PrintPdf" i odaberite "Novo", a zatim "Mapa". Unesite naziv "lib" i kliknite "Završi."

Korak 5

Preuzmite Apache "PDFBox.jar" s Apache stranice i kopirajte ga u direktorij lib koji ste upravo stvorili. Na istoj web stranici preuzmite datoteku "fontbox-nn.jar" i datoteku "jempbox-nn.jar". U svakom slučaju, kada kliknete na tu jar datoteku, odvest će vas na stranicu na kojoj možete odabrati jedan od nekoliko poslužitelja koji mogu pružiti ovu datoteku. Odaberite svaku od njih i svaka jar datoteka će se preuzeti. Kopirajte svaku jar datoteku u lib direktorij koji ste upravo stvorili.

Korak 6

Preuzmite paket Apache log4j.jar na isti način i kopirajte datoteku log4j.jar u direktorij. Biblioteka Apache PDFBox koristi ovu Apache biblioteku za bilježenje, tako da ova datoteka mora biti prisutna.

7. korak

Preuzmite paket Apache Commons Discovery kao zip datoteku. Dvaput kliknite na zip datoteku, odaberite "commons-discovery-nn.jar" i ekstrahirajte je u direktorij lib.

Korak 8

U Eclipseu kliknite na direktorij "lib" i pritisnite "F5." Provjerite jesu li prikazane sve jar datoteke koje ste dodali.

Korak 9

Desnom tipkom miša kliknite projekt PrintPDF i odaberite "Svojstva". Odaberite "Java Build Path" i odaberite karticu "Libraries". Kliknite na "Dodaj tegle" i idite u lib direktorij koji ste upravo stvorili i dodajte "commons-logging-nn.jar" "fontbox-nn.jar," "jempbox-nn.jar," "log4j-nn.jar ," i "pdfbox-nn.jar." Kliknite "U redu."

Napišite kod za čitanje PDF-ova

1. korak

Desnom tipkom miša kliknite mapu "src" vašeg projekta "PrintPDF" i odaberite "Novo" i "Paket". Stvorite paket koristeći bilo koje smisleno ime. Na primjer, nazovite paket "com.pdf.util." Kliknite "Završi."

2. korak

Desnom tipkom miša kliknite naziv paketa koji ste upravo izradili i odaberite "Novo", a zatim "Razred". Stvorite klasu pod nazivom "PDFTextParser." Obavezno kliknite potvrdni okvir označen s "public static void main..." kako bi sustav stvorio "main" metodu.

3. korak

Uredite "glavnu" metodu u klasi "PDFTextParser" tako da sadrži sljedeći kod:

public static void main(String args[]){ PDFTextParser pdf =new PDFTextParser("data/javaPDF.pdf") GO //ispis rezultata System.out.println(pdf.getParsedText()) GO }

Imajte na umu da je datoteka koju želite ispisati navedena u konstruktoru za PDFTextParser ("data/JavaPDF.pdf"). To bi jednako lako mogao biti argument naredbenog retka:

PDFTextParser pdf = new PDFTextParser(argv[0])

KRENI

ili odabrano iz GUI sučelja.

Stvara instancu klase PDFTextParser, a zatim poziva njezinu metodu "getParsedText".

4. korak

Umetnite sljedeći kod točno ispod gornje linije klase "javna klasa PDFTextParser" koja je stvorena za vas.

privatni PDFParser parser =null GO

// Extract text from PDF Document
public PDFTextParser(String fileName) {
 File file = new File(fileName)

KRENI if (!file.isFile()) { System.err.println("Datoteka " + naziv datoteke + " ne postoji.") KRENI } //Postavljanje instance PDF parsera pokušaj { parser =novi PDFParser(novi FileInputStream( file)) GO } catch (IOException e) { System.err.println("Nije moguće otvoriti PDF Parser. " + e.getMessage()) GO } } //------------- ------------------ public String getParsedText() { PDDocument pdDoc =null GO COSDocument cosDoc =null;
String parsedText =null; KRENI

try { 
 PDFTextStripper pdfStripper = new PDFTextStripper()

GO parser.parse() GO cosDoc =parser.getDocument() GO pdDoc =novi PDDocument(cosDoc) GO

//get list of all pages
 List<PDPage> list = pdDoc.getDocumentCatalog().getAllPages()

KRENI

//note that you can print out any pages you want
 //by choosing different values of the start and end page
 pdfStripper.setStartPage(1); //1-based
 int length = list.size(); //total number of pages
 pdfStripper.setEndPage(length); //last page

 //get the text for the pages selected
 parsedText = pdfStripper.getText(pdDoc)

KRENI } catch (IOException e) { System.err .println("Došlo je do iznimke prilikom parsiranja PDF dokumenta." + e.getMessage()) KRENI } konačno { pokušaj { if (cosDoc !=null) cosDoc.close() GO if (pdDoc !=null) pdDoc.close() GO } catch (IOException e) { e.printStackTrace() GO } }
return parsedText GO }

Korak 5

Pokrenite program. Kliknite desnom tipkom miša na klasu PDFTextParser i kliknite na "Pokreni kao", a zatim na "Java program." Program bi se trebao pokrenuti i ispisati tekstualni sadržaj PDF datoteke koju ste unijeli u svoj kod.

Poruka o pogrešci pri pokretanju programa Log4j

1. korak

Stvorite konfiguracijsku datoteku za suzbijanje poruke o pogrešci log4j sustava Java zapisivanja koja se stvara kada ne može pronaći konfiguracijsku datoteku kada se pokrene. Kliknite desnom tipkom miša na mapu "src" projekta PrintPDF i odaberite "Novo", a zatim "Datoteka". Nazovite datoteku "log4j.properties" Eclipse će prikazati prazan ekran za ovu novu datoteku.

2. korak

Zalijepite sljedeće retke u prazan ekran koji predstavlja datoteku "log4j.properties".

Postavite root logger razinu na DEBUG i njegov jedini dodatak na A1. log4j.rootLogger=UPOZORI, A1

A1 je postavljen da bude ConsoleAppender. log4j.appender.A1=org.apache.log4j.ConsoleAppender

A1 koristi PatternLayout. log4j.appender.A1.layout=org.apache.log4j.PatternLayout log4j.appender.A1.layout.ConversionPattern=%-4r [%t] %-5p %c %x - %m%n

3. korak

Spremite datoteku "log4j.properties". Prisutnost ove datoteke u direktoriju "src" najviše razine će potisnuti log4j poruku pokretanja i sve trivijalne poruke zapisivanja. Sustav log4j ispisat će samo stvarne pogreške.

Savjet

Također postoji niz komercijalnih paketa koje možete koristiti za izdvajanje teksta iz PDF datoteka, ali oni nisu jeftini.


  1. Kako čitati PDF datoteke na mobilni telefon
  2. Kako čitati AT & T File
  3. Kako čitati PDF datoteke na mobilni telefon
  4. Kako čitati PDF datoteka na iPod
  5. Kako instalirati Jar datoteku