文章/答案/技术大牛

发布

社区首页 >问答首页 >Pythonpdf管道工:提取pdf，并将数据分割成2列

问Pythonpdf管道工:提取pdf，并将数据分割成2列
EN

Stack Overflow用户

提问于 2020-08-25 10:58:24

回答 1查看 3.3K关注 0票数 3

我收集了pdf文件，以下列格式存储信息：

Line no 1     Line no. 11    
Line no 2     Line no. 12
.             .
.             .
.             .
Line no 10    Line no N

我使用水管工库来提取PDF的文本内容，但是，pdfplumber不是先从第1行读取到第10行，然后再走向第11行(以此类推)，而是将第1行和第11行作为一行一起读取。考虑以下产出：

Line no 1 Line no. 11    
Line no 2 Line no. 12
.             
.             
.

我所期望的：

Line no. 1
Line no. 2
.
.
.
Line no. 11
.
.
.

这是链接的pdf，我正在尝试阅读。

浏览PDF：

我尝试了使用表设置的extract_table()库中的pdfplumber实用程序，但是它不起作用(参考答案https://stackoverflow.com/a/63133876/10011503)

我是否需要将特定的表设置作为参数传递给pdfplumber.open('path_to_pdf').pages[0].extract_table()，还是有其他实用程序和/或解决办法？

python

python-3.x

pdf

回答 1

Stack Overflow用户

发布于 2020-09-11 13:16:09

我在上面的PDF部分没有看到一张桌子。我建议你用

Page.extract_text(...)

代之以打。

主文档中的自述文件有一个在https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/san-jose-pd-firearm-report.ipynb上提取固定宽度文本的示例，这与您的药物PDF更相似。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63577396

复制

相似问题

问Pythonpdf管道工:提取pdf，并将数据分割成2列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pythonpdf管道工:提取pdf，并将数据分割成2列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pythonpdf管道工:提取pdf，并将数据分割成2列
EN