我注意到,当我使用OCR将扫描的PDF文档转换为文本时,根据我提取数据的方式,我会得到非常不同的输出。

在上面的照片中-你可以看到一段PDF,它已经被OCR‘转换成相当高质量的文本。如果我在Adobe中选择它并将其复制到word或txt文档中,它会粘贴得非常好。

但是,如果我使用Adobe将其导出为富文本格式,使用Python的PDFminer,或者Python Apache Tika,那么我就会得到上面的照片,正如你所看到的,它完全弄乱了它。两种方法的提取结果非常一致-基本上3种方法都以完全相同的方式对其进行了混淆。
你们中有谁知道为什么OCR格式的PDF可以很好地复制到文本编辑器中,但却以如此奇怪的方式提取?
谢谢!
问候你,马诺
发布于 2018-03-20 11:22:33
因此,最终对我起作用的是使用Apache-Tika运行初始解析,然后在少数不起作用的情况下,通过PyPDF2传递它们。我的理论是,PyPDF2使用了一种不同的解析机制,它不依赖于PDF的根,而不像Tika,这似乎在一些OCR'd文档中已经被破坏了。
不确定最初的原因,但这是我的解决方案。
https://stackoverflow.com/questions/48933262
复制相似问题