使用iTextSharp或iText等库,您可以通过PdfReader从PDF文档中提取元数据: using (var reader = new PdfReader(pdfBytes))} 这些类型库完全解析PDF文档,然后才能添加元数据。在我的例子中,这将导致系统资源的高使用率,因为我们每秒收到许多请求,并且PDF很大。 有没有一种方法可以从PDF中提取元数据,而不必
然后我试着提取pdf中的表格,然后用熊猫把这些摘录的文本写进csv。但问题是,这些摘录的文本是混乱或破损的孟加拉语文本,这是没有用的。如何从这些pdfs中正确地提取文本并写入csv。) as open_pdf_file: read_pdf = PyPDF2.PdfFileReader(open_pdf_file)
if read_pdf.isEncrypted因此,很难从该pdf
我想写的JavaScript代码,以提取所有的图像文件从一个PDF文件,可能会得到他们的JPG或一些其他图像格式。已经有一些用于读取PDF文件的JavaScript代码,例如在PDF查看器中。files || files.length === 0)
// Read the local file into a Uint8Array.fileReader.onload = function webViewerChangeFileReaderOnload(evt