首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用PyPDF2提取文本几何?

如何使用PyPDF2提取文本几何?
EN

Stack Overflow用户
提问于 2022-08-26 15:24:35
回答 1查看 86关注 0票数 0

我有pdf文档。我很清楚如何从中提取文本。

我不仅需要提取文本,还需要提取与此文本相关的坐标。

这是我的密码

代码语言:javascript
复制
from PyPDF2 import PdfReader
pdf_path = 'docs/doc_3.pdf'
pdf = PdfReader(pdf_path)
page_1_object = pdf.getPage(1)
page_1_object.extractText().split("\n")

结果是:

代码语言:javascript
复制
['Creating value for all stakeholders',
 'Anglo\xa0American is re-imagining mining to improve people’s lives.']

我需要与摘录段落相关的几何图形。例如,可能是这样的:

代码语言:javascript
复制
['Creating value for all stakeholders', [1,2,3,4,]]
 'Anglo\xa0American is re-imagining mining to improve people’s lives.', [7,8,9,10]]

我怎么能做到呢?

谢谢,

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-08-28 00:43:35

目前,该功能不是PyPDF2特性,它能够像显示extractText()那样解析内容,但不保持单独的字形xy位置,也不输出行坐标。

python中还有其他方法可以提取单个或多个字母组,这些字母构成单词。

使用shell命令(如poppler /与来自PyPDF2的文本"word“一起使用)是可能的,但是通常使用另一个PyPDF2(如PyMuPDF )运行,这里有这样一篇文章,https://pyquestions.com/find-text-position-in-pdf-file用于突出显示PyMuPDF输入。

达到目标的最常见的方法可能就像这里描述的那样,How to extract text and text coordinates from a PDF file?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73503313

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档