首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本
EN

Stack Overflow用户
提问于 2018-12-17 23:23:27
回答 1查看 3K关注 0票数 1

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的,所以在处理PDF文本之前,它似乎是用'utf-8‘编码的。但是,无论是使用"open“功能读取PDF文件,还是使用"codecs”功能读取PDF文件,似乎都无法正确提取‘utf-8’编码的文本。你有什么想法可以使用Python3和其他相关的Python库从PDF文件中提取文本吗?提前感谢!

(您可以通过http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273下载示例文件)

代码语言:javascript
复制
import PyPDF2
import codecs 

pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')

read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))
EN

回答 1

Stack Overflow用户

发布于 2018-12-17 23:53:47

在我看来,你的问题与你机器上安装的字体源有很大关系。PyPDF附带的基本包并没有预先包含整个UTF8,因为包含库的所有选项都会增加它的大小。但是,您可以在该目录中安装必要的字体。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53818181

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档