在使用apache PDFBox从PDF中提取数据时,我面临一些问题。使用PDFBox 1.1版本,我能够正确地提取数据。但是相同的代码提供了版本1.3.1的不同输出。只有少数PDF,我面临这个问题。
代码样本
PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));下面是示例输出:
版本1.1 :帐号xxxxx xxxxx-xx-xx. 版本1.3.1: SCHDoe SISInrPnnvuttccraareillreuucfczeX dde,Pt reeF Hr rusdeDiIBc N dsDVeOe I:PiiTgdtlaYieutais sXPuwF rn ew df l er .rdceo dS mwecritvhaiscte.cso 0 m2/1 2-0431/01-1649-9105040.99 MURTgs Ac TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198。/4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .
有人知道会有什么问题吗?
发布于 2011-03-13 04:09:35
我将建议您尝试从PDFBox 1.5.0从这里 -许多文本提取问题已经固定在这个版本。
https://stackoverflow.com/questions/5276831
复制相似问题