文章/答案/技术大牛

发布

社区首页 >问答首页 >Adobe Acrobat/Python PDF输出不同

问Adobe Acrobat/Python PDF输出不同
EN

Stack Overflow用户

提问于 2018-02-23 01:04:03

回答 1查看 291关注 0票数 1

我注意到，当我使用OCR将扫描的PDF文档转换为文本时，根据我提取数据的方式，我会得到非常不同的输出。

在上面的照片中-你可以看到一段PDF，它已经被OCR‘转换成相当高质量的文本。如果我在Adobe中选择它并将其复制到word或txt文档中，它会粘贴得非常好。

但是，如果我使用Adobe将其导出为富文本格式，使用Python的PDFminer，或者Python Apache Tika，那么我就会得到上面的照片，正如你所看到的，它完全弄乱了它。两种方法的提取结果非常一致-基本上3种方法都以完全相同的方式对其进行了混淆。

你们中有谁知道为什么OCR格式的PDF可以很好地复制到文本编辑器中，但却以如此奇怪的方式提取？

谢谢!

问候你，马诺

apache-tika

pdfminer

python-3.x

adobe

pdfbox

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-20 11:22:33

因此，最终对我起作用的是使用Apache-Tika运行初始解析，然后在少数不起作用的情况下，通过PyPDF2传递它们。我的理论是，PyPDF2使用了一种不同的解析机制，它不依赖于PDF的根，而不像Tika，这似乎在一些OCR'd文档中已经被破坏了。

不确定最初的原因，但这是我的解决方案。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48933262

复制

相似问题

问Adobe Acrobat/Python PDF输出不同
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Adobe Acrobat/Python PDF输出不同EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Adobe Acrobat/Python PDF输出不同
EN