我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的,所以在处理PDF文本之前,它似乎是用'utf-8‘编码的。但是,无论是使用"open“功能读取PDF文件,还是使用"codecs”功能读取PDF文件,似乎都无法正确提取‘utf-8’编码的文本。你有什么想法可以使用Python3和其他相关的Python库从PDF文件中提取文本吗?提前感谢!
(您可以通过http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273下载示例文件)
import PyPDF2
import codecs
pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))发布于 2018-12-17 23:53:47
在我看来,你的问题与你机器上安装的字体源有很大关系。PyPDF附带的基本包并没有预先包含整个UTF8,因为包含库的所有选项都会增加它的大小。但是,您可以在该目录中安装必要的字体。
https://stackoverflow.com/questions/53818181
复制相似问题