首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >加速tessearct

加速tessearct
EN

Stack Overflow用户
提问于 2011-05-02 23:20:28
回答 1查看 474关注 0票数 1

我一直在linux上使用tesseract (Ver3)从扫描的pdf文件中提取文本。问题是整个过程很慢,非常慢。例如,提取这个(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20页文档需要514秒(8+分钟)

为了转换pdf,我使用了Image Magick转换应用程序。下面是我使用的set命令。

转换-density 288 src.pdf -colorspace灰度-depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意,288dpi是必需的,否则tesseract将无法从我测试的扫描文件中提取文本。

有没有人知道如何在不影响结果质量的情况下提高速度?

EN

回答 1

Stack Overflow用户

发布于 2011-05-20 10:57:09

尝试VietOCR,看看它是否能产生您想要的更快的结果。如果安装了Ghostscript,它可以接受PDF。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5858945

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档