106 messaggi dal 09 luglio 2009
Buonasera. Per una mia applicazione ho la necessità di ricercare alcune parole (o intere righe) su di un file PDF.

Le righe di questi PDF rappresentano una serie di informazioni finanziarie, così suddivise:

Causale della riga 1 1 Valore 2 Valore 3 Valore
Causale della riga 2 1 Valore 2 Valore 3 Valore
Causale della riga 3 1 Valore 2 Valore 3 Valore


Una volta trovata la riga interessata, per esempio "Riga 2", devo riuscire a leggere anche i vari valori corrispondenti a ciascuna riga.

Sapete indicarmi la via più breve?

Grazie
11.857 messaggi dal 09 febbraio 2002
Contributi
Ciao,
puoi leggere il testo con iTextSharp ma non sarà banale riuscire a ottenere i dati delle righe.


Una volta trovata la riga interessata, per esempio "Riga 2", devo riuscire a leggere anche i vari valori corrispondenti a ciascuna riga.

Nei PDF non esiste il concetto di "riga". Semplicemente, le parole (o frammenti di parola) vengono posizionate su una coordinata relativa alla pagina. Dovrai essere tu, esaminando la Y dei singoli frammenti a capire quali cadono sulla stessa riga e poi rimetterli in ordine in base alla loro X.

Qui trovi l'implementazione di un LocationTextExtractionStrategy che ti servirà ad estrarre i frammenti di testo e le relative coordinate.
https://stackoverflow.com/questions/23909893/getting-coordinates-of-string-using-itextextractionstrategy-and-locationtextextr

Comunque, prima di iniziare il lavoro, assicurati che tu non stia contravvenendo a qualche regolamento. Per esempio, se stai cercando di estrarre dati da un PDF dell'Agenzia delle Entrate, sappi che non è consentito farlo. Chi pubblica informazioni su PDF di solito lo fa per osteggiare la compilazione di un database.

ciao,
Moreno

Enjoy learning and just keep making
106 messaggi dal 09 luglio 2009
Ciao Moreno,
grazie intanto per la risposta.

Mi sono già informato eventualmente sotto il profilo "legale" ed il problema non sussiste.

Esiste invece nel caso strettamente tecnico perchè anche io pensavo, e tu me lo hai confermato, che il PDF non contempla il concetto di riga e di fatto è praticamente impossibile procedere...

Grazie comunque sempre per le tue celeri risposte!

Marco

Torna al forum | Feed RSS

ASPItalia.com non è responsabile per il contenuto dei messaggi presenti su questo servizio, non avendo nessun controllo sui messaggi postati nei propri forum, che rappresentano l'espressione del pensiero degli autori.