文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用Python从PDF文件中提取图表/表格/图形？

问如何使用Python从PDF文件中提取图表/表格/图形？
EN

Stack Overflow用户

提问于 2019-04-29 16:16:12

回答 2查看 4.8K关注 0票数 7

我搜索了很多，但由于我找不到解决这类问题的方法，因此在同一个问题上发布了一个明确的问题。大多数答案包括图像/文本提取，这是相对容易的。

我有一个要求提取表格和图形作为文本(csv)和图像分别从PDF。

有没有人能帮我写一个高效的python3.6代码来解决这个问题？

到目前为止，我可以使用startmark = b"\xff\xd8“和endmark = b"\xff\xd9”实现提取jpgs，但并不是PDF中的所有表格和图形都是普通的jpgs，因此我的代码无法实现这一点。

例如，我想从第11页提取表格，从第12页提取图形作为图像或从以下给定链接可行的东西。该怎么做呢？

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

python-3.6

ocr

extract

python

pdf

回答 2

Stack Overflow用户

发布于 2019-04-29 16:23:45

要提取表，可以使用camelot

这里有一个关于它的article。

对于图片，我找到了这个问题并回答了Extract images from PDF without resampling, in python?

票数 1

Stack Overflow用户

发布于 2020-11-20 15:04:00

尝试使用PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3)合并文本、条形图、线条和轴。它有很多额外的实用程序。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55899363

复制

相似问题

问如何使用Python从PDF文件中提取图表/表格/图形？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python从PDF文件中提取图表/表格/图形？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python从PDF文件中提取图表/表格/图形？
EN