我在c#项目中遇到了一个问题。我想提取Apache FOP生成的PDF文件编程没有任何第三方应用程序。我尝试使用许多库,如PDFBox,IKVM,PDF2Text,ITextSharp,PDFSharp来提取PDF文件,但都失败了。当我将FOP生成的PDF提取到文本文件中时,我得到了许多正方形符号和其他纠缠在一起的字符。
我的问题是,如何在C#中提取FOP生成的PDF文件?有没有可以做到这一点的库(写成C#)?
谢谢。
发布于 2011-10-01 16:13:52
使用Identity-H编码的字体直接使用字形索引在页面上显示文本。这些字体需要字体字典(在PDF文件中)中的ToUnicode条目才能支持文本提取,否则不可能。检查Apache FOP,看看它是否具有在字体字典中包含ToUnicode条目或使字体提取友好的设置。
https://stackoverflow.com/questions/7615903
复制相似问题