文章/答案/技术大牛

发布

社区首页 >问答首页 >使用python从扫描的Pdf中提取pdf数据

问使用python从扫描的Pdf中提取pdf数据
EN

Stack Overflow用户

提问于 2019-08-22 17:28:16

回答 2查看 3.8K关注 0票数 1

我用tesseract ocr从扫描的pdf文件中提取数据，我可以提取数据，但精度不好。在很多地方，它显示了错误的数据，所以我可以通过python获得100%准确的数据。

首先，我将pdf转换为jpg格式，然后使用tesseract模块从图像中提取数据。

from PIL import Image
import pytesseract

text=(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg")))
text=repr(text)
text=text.replace(r"\n","")
print(text)

我期望从pdf得到正确的数据，但是我得到了不同的数据，例如z显示2,5是s,1是I，等等

ocr

python-tesseract

pdfminer

pdf-extraction

python-3.x

回答 2

Stack Overflow用户

发布于 2019-11-22 10:06:23

希望下面的小改动能对你有所帮助。

from PIL import Image
import pytesseract

text=str(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg"),lang='eng'))

text=text.replace("\n","")

print(text)

票数 -1

Stack Overflow用户

发布于 2019-12-12 00:24:22

请在您的文件路径后使用"DPI=500“，这可能会有所帮助。有关更多信息，请关注我在这里发布的答案How to convert .png images to searchable PDF/word using Python

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57606158

复制

相似问题

问使用python从扫描的Pdf中提取pdf数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python从扫描的Pdf中提取pdf数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python从扫描的Pdf中提取pdf数据
EN