假设我得到了几个关键字,而这些关键字都在PDF文件中。是否有方法提取与关键字相关的值?
我试过以下方法-
我使用pdfminer读取PDF文件并将其转换为文本文件。在这一步之后,我能够提取表数据(使用tabula包中的area参数),但是如何搜索与关键字关联的值呢?我有两个问题-
有些答案建议使用OCR,但是如何才能读取值呢?一些人还建议使用机器学习/深度学习算法,该算法应该确定PDF中的表在哪里,并提取表。但我的问题是,如何提取与关键字相关的值?
例如-假设我的pdf写-“你好,你好。我的身高是6英尺,你的身高是5英尺”。假设关键字是“高度”。我应该能够提取数字"6,5“作为输出。这意味着,关键字可以在PDF中重复多次,所有与关键字相关的值都必须被提取出来。
发布于 2019-01-07 12:59:03
一旦您转换/OCRed了PDF并从中获取了文本,那么您可能希望阅读文本中的每一个句子(可能使用split(".")),并使用“高度”遍历句子,然后使用regex搜索数字,如下所示。这只是一个非常简单的建议,基于问题中有限的信息,为了获得满意的结果,您可能需要使用不同的和/或多种这样的模式。
patt = r"\d+"
if "height" in sentence:
print(re.findall(patt, m_s))https://stackoverflow.com/questions/54074489
复制相似问题