嗨,我正在使用tikka包从pdf中提取文本,但我想从提取的内容中提取第5行,我尝试了使用其他pdf提取模块,但是我只使用tikka的那种pdf可以解析它。
这是我试过的密码。
from tika import parser from tika import parser
parsed_pdf = parser.from_file("mypdf.pdf")
print(parsed_pdf['content']) 在这里,我只想提取5 line和在单词seige social之后的所有内容。
输出的pdf
Légales义务文件公报-编号: 2101700 du 24 mai 2021
24 mai 2021号公报
2101700第1页
Avis de convocation / avis de réunion
皮埃尔·阿菲尔2
SociétéCivile de Placement Immobilier au capital de 99 271 260欧元
Siège social : 167,quai de la Bataille de Stalingrad - 92 867 Issy-les-Moulineaux cedex 520 008 442 R.C.S. NANTERRE
AVIS DE大会
Les associés de la SCPI PIERRE AVENIR 2 sont convoqués en associée générale le mercredi 9 juin 2021年14 heures 30。
期望输出
皮埃尔·阿菲尔2
和
167,Stalingrad - 92 867 Issy-les-Moulineaux cedex 520 008 442 R.C.S. NANTERRE
发布于 2021-06-01 03:52:33
from tika import parser from tika import parser
parsed_pdf = parser.from_file("mypdf.pdf")
data=parsed_pdf['content']
print(data[4])
print(data[6].split("Siège social : ")[1])我猜用“\n”来分割数据,以便得到所有的行,然后访问行和词,然后在“Si\ge ge social:”之后访问行和单词,这可能会解决您的问题。
https://stackoverflow.com/questions/67782240
复制相似问题