首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用pdftotext提取特定数据

使用pdftotext提取特定数据
EN

Stack Overflow用户
提问于 2021-09-08 09:18:09
回答 1查看 47关注 0票数 1

我正在使用pdftotext Python Library从PDF文档中提取一些数据。

代码语言:javascript
复制
import pdftotext

# Load your PDF
with open("text2.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)


# How many pages?
print(len(pdf))



data = "\n\n".join(pdf)
# Read all the text into one string
print(data)

提取的数据为:

代码语言:javascript
复制
Account Name               :Mr. SX
Account Name               :Mr. XX XX XX
Address                  : Address detaisls
                      
Date                        :7 Sep 2021
Account Number               :00000031873583221
Account Description          :REGULAR SB CHQ-INDIVIDUALS
Branch                      :SSI 
Drawing Power               :0.00

整个数据都是字符串形式的,但我只想提取帐号。我使用正则表达式:

代码语言:javascript
复制
^(Account\s+Number).*$

但是无法弄清楚如何从整个字符串中提取数据。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-09-08 09:20:01

您可以尝试:

代码语言:javascript
复制
>>> '\n'.join([re.sub(r'Account Number\s+:', '', line) for line in data.splitlines() if 'Account Number' in line])
'00000031873583221'
>>> 

不使用正则表达式更简单:

代码语言:javascript
复制
>>> '\n'.join([line.split(':')[-1] for line in data.splitlines() if 'Account Number' in line])
'00000031873583221'
>>> 
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69100290

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档