首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PDF提取未完成

PDF提取未完成
EN

Stack Overflow用户
提问于 2016-11-15 19:23:24
回答 1查看 173关注 0票数 1

我试图从PDF文件中提取文本:http://www.filedropper.com/copy_1,但是我从一个页面中得到的文本还不到一半。我使用的是iTextSharp:

代码语言:javascript
复制
PdfReader reader = new PdfReader(file);
string currentText =  PdfTextExtractor.GetTextFromPage(reader, 1);

我也使用了SimpleTextExtractionStrategy而不是默认的LocationTextExtractionStrategy:

代码语言:javascript
复制
PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())

该文件最初是从Microsoft Reporting Service (我没有访问权限)中生成的,我提取了一个页面用于测试文本提取。

有人能帮上忙吗?

EN

回答 1

Stack Overflow用户

发布于 2016-11-15 19:58:26

试试这个:-

代码语言:javascript
复制
PdfReader reader = new PdfReader(file);
StringBuilder currentText= new StringBuilder();
for (int i= 1; i <= reader.NumberOfPages; i++)
{
    currentText.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}

然后在"currentText“上执行你想要的任何操作。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40608619

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档