首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Adobe Acrobat/Python PDF输出不同

Adobe Acrobat/Python PDF输出不同
EN

Stack Overflow用户
提问于 2018-02-23 01:04:03
回答 1查看 291关注 0票数 1

我注意到,当我使用OCR将扫描的PDF文档转换为文本时,根据我提取数据的方式,我会得到非常不同的输出。

在上面的照片中-你可以看到一段PDF,它已经被OCR‘转换成相当高质量的文本。如果我在Adobe中选择它并将其复制到word或txt文档中,它会粘贴得非常好。

但是,如果我使用Adobe将其导出为富文本格式,使用Python的PDFminer,或者Python Apache Tika,那么我就会得到上面的照片,正如你所看到的,它完全弄乱了它。两种方法的提取结果非常一致-基本上3种方法都以完全相同的方式对其进行了混淆。

你们中有谁知道为什么OCR格式的PDF可以很好地复制到文本编辑器中,但却以如此奇怪的方式提取?

谢谢!

问候你,马诺

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-20 11:22:33

因此,最终对我起作用的是使用Apache-Tika运行初始解析,然后在少数不起作用的情况下,通过PyPDF2传递它们。我的理论是,PyPDF2使用了一种不同的解析机制,它不依赖于PDF的根,而不像Tika,这似乎在一些OCR'd文档中已经被破坏了。

不确定最初的原因,但这是我的解决方案。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48933262

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档