我尝试用pdf2json npm软件包从pdf中提取数据,但它没有提取段落中的数据。
我有一个pdf文件,其中包含表格,副词和图表在它,我想提取原始数据作为一个文本文件。
是否有其他选项可以使用节点js从段落中的pdf中提取数据。
发布于 2022-11-04 10:06:31
您可以使用pdf-parse npm包获取原始文本内容。这是链接https://www.npmjs.com/package/pdf-parse
发布于 2022-11-07 16:54:37
“pdf -解析”将做那些与pdf相异的概念段落,然而,这套方案似乎早已被抛弃。
有关仍在维护的分叉,请参见https://www.npmjs.com/package/pdfdataextract
“pdfdata提取物”将输出行合并,实际上抱怨的是,它不保留在有效的原始PDF提取中的自然单行。
https://stackoverflow.com/questions/73769758
复制相似问题