我搜索了很多,但由于我找不到解决这类问题的方法,因此在同一个问题上发布了一个明确的问题。大多数答案包括图像/文本提取,这是相对容易的。
我有一个要求提取表格和图形作为文本(csv)和图像分别从PDF。
有没有人能帮我写一个高效的python3.6代码来解决这个问题?
到目前为止,我可以使用startmark = b"\xff\xd8“和endmark = b"\xff\xd9”实现提取jpgs,但并不是PDF中的所有表格和图形都是普通的jpgs,因此我的代码无法实现这一点。
例如,我想从第11页提取表格,从第12页提取图形作为图像或从以下给定链接可行的东西。该怎么做呢?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf
发布于 2019-04-29 16:23:45
要提取表,可以使用camelot
这里有一个关于它的article。
对于图片,我找到了这个问题并回答了Extract images from PDF without resampling, in python?
发布于 2020-11-20 15:04:00
尝试使用PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3)合并文本、条形图、线条和轴。它有很多额外的实用程序。
https://stackoverflow.com/questions/55899363
复制相似问题