首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pythonpdf管道工:提取pdf,并将数据分割成2列

Pythonpdf管道工:提取pdf,并将数据分割成2列
EN

Stack Overflow用户
提问于 2020-08-25 10:58:24
回答 1查看 3.3K关注 0票数 3

我收集了pdf文件,以下列格式存储信息:

代码语言:javascript
复制
Line no 1     Line no. 11    
Line no 2     Line no. 12
.             .
.             .
.             .
Line no 10    Line no N

我使用水管工库来提取PDF的文本内容,但是,pdfplumber不是先从第1行读取到第10行,然后再走向第11行(以此类推),而是将第1行和第11行作为一行一起读取。考虑以下产出:

代码语言:javascript
复制
Line no 1 Line no. 11    
Line no 2 Line no. 12
.             
.             
.             

我所期望的:

代码语言:javascript
复制
Line no. 1
Line no. 2
.
.
.
Line no. 11
.
.
.

这是链接的pdf,我正在尝试阅读。

浏览PDF:

我尝试了使用表设置的extract_table()库中的pdfplumber实用程序,但是它不起作用(参考答案https://stackoverflow.com/a/63133876/10011503)

我是否需要将特定的表设置作为参数传递给pdfplumber.open('path_to_pdf').pages[0].extract_table(),还是有其他实用程序和/或解决办法?

EN

回答 1

Stack Overflow用户

发布于 2020-09-11 13:16:09

我在上面的PDF部分没有看到一张桌子。我建议你用

代码语言:javascript
复制
Page.extract_text(...)

代之以打。

主文档中的自述文件有一个在https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/san-jose-pd-firearm-report.ipynb上提取固定宽度文本的示例,这与您的药物PDF更相似。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63577396

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档