我有大量的PDF文档,我需要从中提取文本。用于进一步处理的提取文本。我以线性的方式使用Tesseract API对一小部分文档进行了这一操作,并获得了所需的输出。然而,当我有大量的文件时,这需要很长时间。
我尝试使用Hadoop环境处理功能(Map)和存储(HDFS)来解决这个问题。然而,我面临着将Tesseract API实现到Hadoop (Map)方法中的问题。当Teserract将这些文件转换为中间图像文件时,我对在HDFS中如何处理Tesseract-API-进程的中间结果图像文件感到困惑。
我已经搜索过,但没有成功地尝试了几个选项,比如:
想知道解决这个问题的方法。
发布于 2017-07-07 12:01:30
这是一种处理多个pdf的方法,使用Hadoop框架的强大功能提取文本,然后使用该文本进行进一步处理:
这是目前的解决办法。希望对此有反馈意见。
https://stackoverflow.com/questions/44602145
复制相似问题