首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Python从PDF文件中提取图表/表格/图形?

如何使用Python从PDF文件中提取图表/表格/图形?
EN

Stack Overflow用户
提问于 2019-04-29 16:16:12
回答 2查看 4.8K关注 0票数 7

我搜索了很多,但由于我找不到解决这类问题的方法,因此在同一个问题上发布了一个明确的问题。大多数答案包括图像/文本提取,这是相对容易的。

我有一个要求提取表格和图形作为文本(csv)和图像分别从PDF。

有没有人能帮我写一个高效的python3.6代码来解决这个问题?

到目前为止,我可以使用startmark = b"\xff\xd8“和endmark = b"\xff\xd9”实现提取jpgs,但并不是PDF中的所有表格和图形都是普通的jpgs,因此我的代码无法实现这一点。

例如,我想从第11页提取表格,从第12页提取图形作为图像或从以下给定链接可行的东西。该怎么做呢?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

EN

回答 2

Stack Overflow用户

发布于 2019-04-29 16:23:45

要提取,可以使用camelot

这里有一个关于它的article

对于图片,我找到了这个问题并回答了Extract images from PDF without resampling, in python?

票数 1
EN

Stack Overflow用户

发布于 2020-11-20 15:04:00

尝试使用PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3)合并文本、条形图、线条和轴。它有很多额外的实用程序。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55899363

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档