我用tesseract ocr从扫描的pdf文件中提取数据,我可以提取数据,但精度不好。在很多地方,它显示了错误的数据,所以我可以通过python获得100%准确的数据。
首先,我将pdf转换为jpg格式,然后使用tesseract模块从图像中提取数据。
from PIL import Image
import pytesseract
text=(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg")))
text=repr(text)
text=text.replace(r"\n","")
print(text)我期望从pdf得到正确的数据,但是我得到了不同的数据,例如z显示2,5是s,1是I,等等
发布于 2019-11-22 10:06:23
希望下面的小改动能对你有所帮助。
from PIL import Image
import pytesseract
text=str(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg"),lang='eng'))
text=text.replace("\n","")
print(text)发布于 2019-12-12 00:24:22
请在您的文件路径后使用"DPI=500“,这可能会有所帮助。有关更多信息,请关注我在这里发布的答案How to convert .png images to searchable PDF/word using Python
https://stackoverflow.com/questions/57606158
复制相似问题