问是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？
EN

Stack Overflow用户

提问于 2019-01-07 12:30:21

回答 1查看 202关注 0票数 0

假设我得到了几个关键字，而这些关键字都在PDF文件中。是否有方法提取与关键字相关的值？

我试过以下方法-

我使用pdfminer读取PDF文件并将其转换为文本文件。在这一步之后，我能够提取表数据(使用tabula包中的area参数)，但是如何搜索与关键字关联的值呢？我有两个问题-

表结构没有被保留，来自表的有意义的数据(在PDF中)没有以正确的方式显示在文本文件中。一些消息来源说，PDF格式的表格结构无法保留。那么，是否有一种方法能够以一种有意义的方式阅读故事内容呢？
由于问题1，我无法提取与关键字关联的值。

有些答案建议使用OCR，但是如何才能读取值呢？一些人还建议使用机器学习/深度学习算法，该算法应该确定PDF中的表在哪里，并提取表。但我的问题是，如何提取与关键字相关的值？

例如-假设我的pdf写-“你好，你好。我的身高是6英尺，你的身高是5英尺”。假设关键字是“高度”。我应该能够提取数字"6，5“作为输出。这意味着，关键字可以在PDF中重复多次，所有与关键字相关的值都必须被提取出来。

发布于 2019-01-07 12:59:03

一旦您转换/OCRed了PDF并从中获取了文本，那么您可能希望阅读文本中的每一个句子(可能使用split("."))，并使用“高度”遍历句子，然后使用regex搜索数字，如下所示。这只是一个非常简单的建议，基于问题中有限的信息，为了获得满意的结果，您可能需要使用不同的和/或多种这样的模式。

patt = r"\d+"
if "height" in sentence:
    print(re.findall(patt, m_s))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54074489

复制

相似问题

问是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？EN