我正在使用node.js和pdf2json解析器来解析一个pdf文件。目前,它正在处理一个本地pdf文件。但是我试图通过node.js的URL/HTTP模块获得一个pdf文件,我想打开这个文件来解析它。
有没有可能解析/处理一个在线的pdf?
let query = url.parse(req.url, true).query;
let pdfLink = query.pdf;
...
pdfParser.loadPDF(pdfLink + "");因此,url应该通过url给出,如:https://localhost:8080/?pdf=http://whale-cms.de/pdf.pdf
有没有办法在在线pdf/link中解析它?
提前谢谢。
发布于 2018-01-03 23:25:01
我正面临着同样的问题,并找到了一个解决方案:
var request = require('request');
var PDFParser = require("pdf2json");
var pdfUrl = "http://localhost:3000/cdn/storage/PDFFiles/sk87bAfiXxPre428b/original/sk87bAfiXxPre428b"
var pdfParser = new PDFParser();
var pdfPipe = request({url: pdfUrl, encoding:null}).pipe(pdfParser);
pdfPipe.on("pdfParser_dataError", err => console.error(err) );
pdfPipe.on("pdfParser_dataReady", pdf => {
let usedFieldsInTheDocument = pdfParser.getAllFieldsTypes();
console.log(usedFieldsInTheDocument)
});来源:https://github.com/modesty/pdf2json/issues/65
干杯
https://stackoverflow.com/questions/45055125
复制相似问题