问如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本
EN

Stack Overflow用户

提问于 2018-12-17 23:23:27

回答 1查看 3K关注 0票数 1

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的，所以在处理PDF文本之前，它似乎是用'utf-8‘编码的。但是，无论是使用"open“功能读取PDF文件，还是使用"codecs”功能读取PDF文件，似乎都无法正确提取‘utf-8’编码的文本。你有什么想法可以使用Python3和其他相关的Python库从PDF文件中提取文本吗？提前感谢！

(您可以通过http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273下载示例文件)

import PyPDF2
import codecs 

pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')

read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))

pdf

text

data-conversion

python

回答 1

Stack Overflow用户

发布于 2018-12-17 23:53:47

在我看来，你的问题与你机器上安装的字体源有很大关系。PyPDF附带的基本包并没有预先包含整个UTF8，因为包含库的所有选项都会增加它的大小。但是，您可以在该目录中安装必要的字体。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53818181

复制

相似问题

问如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本
EN