首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用python从扫描的Pdf中提取pdf数据

使用python从扫描的Pdf中提取pdf数据
EN

Stack Overflow用户
提问于 2019-08-22 17:28:16
回答 2查看 3.8K关注 0票数 1

我用tesseract ocr从扫描的pdf文件中提取数据,我可以提取数据,但精度不好。在很多地方,它显示了错误的数据,所以我可以通过python获得100%准确的数据。

首先,我将pdf转换为jpg格式,然后使用tesseract模块从图像中提取数据。

代码语言:javascript
复制
from PIL import Image
import pytesseract

text=(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg")))
text=repr(text)
text=text.replace(r"\n","")
print(text)

我期望从pdf得到正确的数据,但是我得到了不同的数据,例如z显示2,5是s,1是I,等等

EN

回答 2

Stack Overflow用户

发布于 2019-11-22 10:06:23

希望下面的小改动能对你有所帮助。

代码语言:javascript
复制
from PIL import Image
import pytesseract

text=str(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg"),lang='eng'))

text=text.replace("\n","")

print(text)
票数 -1
EN

Stack Overflow用户

发布于 2019-12-12 00:24:22

请在您的文件路径后使用"DPI=500“,这可能会有所帮助。有关更多信息,请关注我在这里发布的答案How to convert .png images to searchable PDF/word using Python

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57606158

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档