当我使用基于pdfminer的程序从一个12页的pdf文件中提取内容时,我只使用11页就得到了错误的结果。我用其他文件对它进行了测试,在大多数情况下得到了正确的结果。
偶然的是,我在opened (v10.10.4)中使用预览应用程序打开了它,而保存了它而没有任何其他操作。然后我从节目中得到的结果是正确的。我发现这个文件的大小通过预览从2m更改为300 k,但不知道它做了什么。
我试着搜索一个答案,但大多数主题都是关于使用预览应用程序的导出函数来压缩pdf文件,而且似乎也没有人遇到与pdfminer相同的问题。
当“保存”时,预览应用程序如何处理pdf文件?
2 .我如何处理这个问题?
提前感谢!
发布于 2015-08-25 10:08:02
PDF是一种复杂的文件格式,它支持许多不同的特性和方法。您的pdfminer应用程序显然与这些功能有问题,这导致它曲解某些文件。另一方面,预览似乎正确地支持一切,并能够正确地将文件读入其内部表示格式。然后,当您重新保存文件时,Preview以编写相同信息的方式编写它。同样的,很多不同的方式来做同样的事情意味着不同的程序会做不同的事情。
预览显然有一个更好,更兼容,更精简的方式来表达相同的内容;您的pdfminer可以更好地处理它。
https://stackoverflow.com/questions/32200757
复制相似问题