我试图从PDF文件中提取文本:http://www.filedropper.com/copy_1,但是我从一个页面中得到的文本还不到一半。我使用的是iTextSharp:
PdfReader reader = new PdfReader(file);
string currentText = PdfTextExtractor.GetTextFromPage(reader, 1);我也使用了SimpleTextExtractionStrategy而不是默认的LocationTextExtractionStrategy:
PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())该文件最初是从Microsoft Reporting Service (我没有访问权限)中生成的,我提取了一个页面用于测试文本提取。
有人能帮上忙吗?
发布于 2016-11-15 19:58:26
试试这个:-
PdfReader reader = new PdfReader(file);
StringBuilder currentText= new StringBuilder();
for (int i= 1; i <= reader.NumberOfPages; i++)
{
currentText.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}然后在"currentText“上执行你想要的任何操作。
https://stackoverflow.com/questions/40608619
复制相似问题