首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从python中的parsed_pdf [content]中提取特定行

从python中的parsed_pdf [content]中提取特定行
EN

Stack Overflow用户
提问于 2021-06-01 03:07:57
回答 1查看 33关注 0票数 0

嗨,我正在使用tikka包从pdf中提取文本,但我想从提取的内容中提取第5行,我尝试了使用其他pdf提取模块,但是我只使用tikka的那种pdf可以解析它。

这是我试过的密码。

代码语言:javascript
复制
from tika import parser from tika import parser 
parsed_pdf = parser.from_file("mypdf.pdf")
print(parsed_pdf['content']) 

在这里,我只想提取5 line和在单词seige social之后的所有内容。

输出的pdf

Légales义务文件公报-编号: 2101700 du 24 mai 2021

24 mai 2021号公报

2101700第1页

Avis de convocation / avis de réunion

皮埃尔·阿菲尔2

SociétéCivile de Placement Immobilier au capital de 99 271 260欧元

Siège social : 167,quai de la Bataille de Stalingrad - 92 867 Issy-les-Moulineaux cedex 520 008 442 R.C.S. NANTERRE

AVIS DE大会

Les associés de la SCPI PIERRE AVENIR 2 sont convoqués en associée générale le mercredi 9 juin 2021年14 heures 30。

期望输出

皮埃尔·阿菲尔2

167,Stalingrad - 92 867 Issy-les-Moulineaux cedex 520 008 442 R.C.S. NANTERRE

EN

回答 1

Stack Overflow用户

发布于 2021-06-01 03:52:33

代码语言:javascript
复制
from tika import parser from tika import parser 
parsed_pdf = parser.from_file("mypdf.pdf")
data=parsed_pdf['content']
print(data[4])
print(data[6].split("Siège social : ")[1])

我猜用“\n”来分割数据,以便得到所有的行,然后访问行和词,然后在“Si\ge ge social:”之后访问行和单词,这可能会解决您的问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67782240

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档