首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PDFBox 1.3.1中的PDF提取问题

PDFBox 1.3.1中的PDF提取问题
EN

Stack Overflow用户
提问于 2011-03-11 18:25:46
回答 1查看 1.5K关注 0票数 0

在使用apache PDFBox从PDF中提取数据时,我面临一些问题。使用PDFBox 1.1版本,我能够正确地提取数据。但是相同的代码提供了版本1.3.1的不同输出。只有少数PDF,我面临这个问题。

代码样本

代码语言:javascript
复制
PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

下面是示例输出:

版本1.1 :帐号xxxxx xxxxx-xx-xx. 版本1.3.1: SCHDoe SISInrPnnvuttccraareillreuucfczeX dde,Pt reeF Hr rusdeDiIBc N dsDVeOe I:PiiTgdtlaYieutais sXPuwF rn ew df l er .rdceo dS mwecritvhaiscte.cso 0 m2/1 2-0431/01-1649-9105040.99 MURTgs Ac TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198。/4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .

有人知道会有什么问题吗?

EN

回答 1

Stack Overflow用户

发布于 2011-03-13 04:09:35

我将建议您尝试从PDFBox 1.5.0从这里 -许多文本提取问题已经固定在这个版本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5276831

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档