首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从多个PDF文件中提取以预定义字母表开头的特定行

如何从多个PDF文件中提取以预定义字母表开头的特定行
EN

Stack Overflow用户
提问于 2021-01-19 22:56:52
回答 1查看 30关注 0票数 0

下面的代码帮助我从目录中拉出每个PDF文件的第一页。

代码语言:javascript
复制
library(pdftools)
    lapply(files, function(x) strsplit(pdf_text(x), "\n")[[1]]) -> result 

现在我想从这些页面中提取特定的行,这些行以一个预定义的单词开始。

例如:我有这行“源程序: lafaf_sfafatfga.sas”在PDF中,现在我只想提取这一行,类似地,我想提取至少5行,每行以不同的单词或字母开头。所以输出应该只有我要求的那5行。

请给我你的输入。

谢谢你,巴拉特

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-02-03 09:39:55

如果想要搜索第一页中的行,可以尝试使用lapply

代码语言:javascript
复制
lapply(files, function(x) {
  tmp <- strsplit(pdf_text(x), "\n")[[1]]
  grep('Source Program: lafaf_sfafatfga.sas', tmp, value = TRUE)
}) -> result

result 
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65794015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档