我正在使用PyMuPDF从PDF中提取块单元的文本。在许多情况下,“块”似乎只是缺省为换行符分隔的单位,而不是逻辑段落。import fitzblocks = [x[4] for x in doc[0].getText("blocks")]
print(blocks) (可以在here上找到example.pdf) 如果不是因为Mac的bog标准预览应用程序的直接复制/粘贴,漂亮地保留了段落
我想预览游侠中的html文件作为图片,类似地,如何可以预览的pdf文件。我想,首先,它需要强制进入A4页面或类似的东西,所以它是打开屏幕时屏幕上的预览。我可能会设置一个使用html -> pdf ->图片的管道,但我希望有一个工具可以直接实现这一点(因此减少了两个转换的开销)。有没有人知道这样的事情,或者有一个优雅的解决方案?
我在这里使用示例通过Android打印框架打印PDF:
但是,打印预览与打印输出不匹配。事实上,输出是正确的,但预览是不正确的。有什么方法可以纠正这个问题吗?编辑: Google PDF Viewer在尝试打印PDF时显然会正确显示预览。是否有一些未知的方法可以使预览在打印预览中正确显示?似乎没有任何解决方案。