问PDFBox 1.3.1中的PDF提取问题
EN

Stack Overflow用户

提问于 2011-03-11 18:25:46

回答 1查看 1.5K关注 0票数 0

在使用apache PDFBox从PDF中提取数据时，我面临一些问题。使用PDFBox 1.1版本，我能够正确地提取数据。但是相同的代码提供了版本1.3.1的不同输出。只有少数PDF，我面临这个问题。

代码样本

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

下面是示例输出：

版本1.1 :帐号xxxxx xxxxx-xx-xx. 版本1.3.1: SCHDoe SISInrPnnvuttccraareillreuucfczeX dde，Pt reeF Hr rusdeDiIBc N dsDVeOe I:PiiTgdtlaYieutais sXPuwF rn ew df l er .rdceo dS mwecritvhaiscte.cso 0 m2/1 2-0431/01-1649-9105040.99 MURTgs Ac TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198。/4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .

有人知道会有什么问题吗？

java

pdfbox

回答 1

Stack Overflow用户

发布于 2011-03-13 04:09:35

我将建议您尝试从PDFBox 1.5.0从这里 -许多文本提取问题已经固定在这个版本。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5276831

复制

相似问题

问PDFBox 1.3.1中的PDF提取问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDFBox 1.3.1中的PDF提取问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDFBox 1.3.1中的PDF提取问题
EN