首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值?

是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值?
EN

Stack Overflow用户
提问于 2019-01-07 12:30:21
回答 1查看 202关注 0票数 0

假设我得到了几个关键字,而这些关键字都在PDF文件中。是否有方法提取与关键字相关的值?

我试过以下方法-

我使用pdfminer读取PDF文件并将其转换为文本文件。在这一步之后,我能够提取表数据(使用tabula包中的area参数),但是如何搜索与关键字关联的值呢?我有两个问题-

  1. 表结构没有被保留,来自表的有意义的数据(在PDF中)没有以正确的方式显示在文本文件中。一些消息来源说,PDF格式的表格结构无法保留。那么,是否有一种方法能够以一种有意义的方式阅读故事内容呢?
  2. 由于问题1,我无法提取与关键字关联的值。

有些答案建议使用OCR,但是如何才能读取值呢?一些人还建议使用机器学习/深度学习算法,该算法应该确定PDF中的表在哪里,并提取表。但我的问题是,如何提取与关键字相关的值?

例如-假设我的pdf写-“你好,你好。我的身高是6英尺,你的身高是5英尺”。假设关键字是“高度”。我应该能够提取数字"6,5“作为输出。这意味着,关键字可以在PDF中重复多次,所有与关键字相关的值都必须被提取出来。

EN

回答 1

Stack Overflow用户

发布于 2019-01-07 12:59:03

一旦您转换/OCRed了PDF并从中获取了文本,那么您可能希望阅读文本中的每一个句子(可能使用split(".")),并使用“高度”遍历句子,然后使用regex搜索数字,如下所示。这只是一个非常简单的建议,基于问题中有限的信息,为了获得满意的结果,您可能需要使用不同的和/或多种这样的模式。

代码语言:javascript
复制
patt = r"\d+"
if "height" in sentence:
    print(re.findall(patt, m_s))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54074489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档