文章/答案/技术大牛

发布

问加速tessearct
EN

Stack Overflow用户

提问于 2011-05-02 23:20:28

回答 1查看 474关注 0票数 1

我一直在linux上使用tesseract (Ver3)从扫描的pdf文件中提取文本。问题是整个过程很慢，非常慢。例如，提取这个(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20页文档需要514秒(8+分钟)

为了转换pdf，我使用了Image Magick转换应用程序。下面是我使用的set命令。

转换-density 288 src.pdf -colorspace灰度-depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意，288dpi是必需的，否则tesseract将无法从我测试的扫描文件中提取文本。

有没有人知道如何在不影响结果质量的情况下提高速度？

发布于 2011-05-20 10:57:09

尝试VietOCR，看看它是否能产生您想要的更快的结果。如果安装了Ghostscript，它可以接受PDF。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5858945

复制

相似问题

问加速tessearctEN