我收集了pdf文件,以下列格式存储信息:
Line no 1 Line no. 11
Line no 2 Line no. 12
. .
. .
. .
Line no 10 Line no N我使用水管工库来提取PDF的文本内容,但是,pdfplumber不是先从第1行读取到第10行,然后再走向第11行(以此类推),而是将第1行和第11行作为一行一起读取。考虑以下产出:
Line no 1 Line no. 11
Line no 2 Line no. 12
.
.
. 我所期望的:
Line no. 1
Line no. 2
.
.
.
Line no. 11
.
.
.这是链接的pdf,我正在尝试阅读。
浏览PDF:

我尝试了使用表设置的extract_table()库中的pdfplumber实用程序,但是它不起作用(参考答案https://stackoverflow.com/a/63133876/10011503)
我是否需要将特定的表设置作为参数传递给pdfplumber.open('path_to_pdf').pages[0].extract_table(),还是有其他实用程序和/或解决办法?
发布于 2020-09-11 13:16:09
我在上面的PDF部分没有看到一张桌子。我建议你用
Page.extract_text(...)代之以打。
主文档中的自述文件有一个在https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/san-jose-pd-firearm-report.ipynb上提取固定宽度文本的示例,这与您的药物PDF更相似。
https://stackoverflow.com/questions/63577396
复制相似问题