首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用pdftotext格式化纯文本标记?

如何使用pdftotext格式化纯文本标记?
EN

Stack Overflow用户
提问于 2014-07-10 01:30:05
回答 1查看 165关注 0票数 1

我正在使用pdftotext从PDF文件中提取普通内容。

但是结果没有格式(例如:段落、列表等)。如何使用pdftotext从PDF中提取纯文本,并将结果格式化为标记?

实际上我正在尝试这样做:

代码语言:javascript
复制
pdftotext -layout -enc UTF-8

有没有其他方法可以做到这一点?

EN

回答 1

Stack Overflow用户

发布于 2015-01-14 04:17:11

您想要做的事情在pdftotext中是不可能的。

返回的pdftotext -layout的结果是你能得到的最好的结果。

文本的 (或其他格式)输出目前是不可能的。

然而,在其他领域(如pdf.js)可能会有一些发展,在未来可能会实现类似的事情……

然而,这种“格式化”只会以某种方式反映PDF页面的视觉外观,而不会匹配任何结构化文档信息(告诉什么是“标题”,什么是“列表”,什么是“段落”)。

@jongware在他的评论中写的是完全正确的:

文件不包含“段落、列表等”。除非它已经特别地用适当的标记进行了标记。如果PDF没有标记,每个实用程序(包括Adobe自己的Acrobat Reader,PDF处理软件的试金石)都只能猜测“段落”或“列表”是什么。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24660201

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档