我一直在linux上使用tesseract (Ver3)从扫描的pdf文件中提取文本。问题是整个过程很慢,非常慢。例如,提取这个(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20页文档需要514秒(8+分钟)
为了转换pdf,我使用了Image Magick转换应用程序。下面是我使用的set命令。
转换-density 288 src.pdf -colorspace灰度-depth 8 -alpha off tmp.tif
tesseract tmp.tif out.txt
请注意,288dpi是必需的,否则tesseract将无法从我测试的扫描文件中提取文本。
有没有人知道如何在不影响结果质量的情况下提高速度?
发布于 2011-05-20 10:57:09
尝试VietOCR,看看它是否能产生您想要的更快的结果。如果安装了Ghostscript,它可以接受PDF。
https://stackoverflow.com/questions/5858945
复制相似问题