文章/答案/技术大牛

发布

社区首页 >问答首页 >从python中的parsed_pdf [content]中提取特定行

问从python中的parsed_pdf [content]中提取特定行
EN

Stack Overflow用户

提问于 2021-06-01 03:07:57

回答 1查看 33关注 0票数 0

嗨，我正在使用tikka包从pdf中提取文本，但我想从提取的内容中提取第5行，我尝试了使用其他pdf提取模块，但是我只使用tikka的那种pdf可以解析它。

这是我试过的密码。

from tika import parser from tika import parser 
parsed_pdf = parser.from_file("mypdf.pdf")
print(parsed_pdf['content'])

在这里，我只想提取5 line和在单词seige social之后的所有内容。

输出的pdf

Légales义务文件公报-编号: 2101700 du 24 mai 2021

24 mai 2021号公报

2101700第1页

Avis de convocation / avis de réunion

皮埃尔·阿菲尔2

SociétéCivile de Placement Immobilier au capital de 99 271 260欧元

Siège social : 167，quai de la Bataille de Stalingrad - 92 867 Issy-les-Moulineaux cedex 520 008 442 R.C.S. NANTERRE

AVIS DE大会

Les associés de la SCPI PIERRE AVENIR 2 sont convoqués en associée générale le mercredi 9 juin 2021年14 heures 30。

期望输出

皮埃尔·阿菲尔2

和

167，Stalingrad - 92 867 Issy-les-Moulineaux cedex 520 008 442 R.C.S. NANTERRE

python

回答 1

Stack Overflow用户

发布于 2021-06-01 03:52:33

from tika import parser from tika import parser 
parsed_pdf = parser.from_file("mypdf.pdf")
data=parsed_pdf['content']
print(data[4])
print(data[6].split("SiÃ¨ge social : ")[1])

我猜用“\n”来分割数据，以便得到所有的行，然后访问行和词，然后在“Si\ge ge social：”之后访问行和单词，这可能会解决您的问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67782240

复制

相似问题

问从python中的parsed_pdf [content]中提取特定行
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从python中的parsed_pdf [content]中提取特定行EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从python中的parsed_pdf [content]中提取特定行
EN