下面的代码帮助我从目录中拉出每个PDF文件的第一页。
library(pdftools)
lapply(files, function(x) strsplit(pdf_text(x), "\n")[[1]]) -> result 现在我想从这些页面中提取特定的行,这些行以一个预定义的单词开始。
例如:我有这行“源程序: lafaf_sfafatfga.sas”在PDF中,现在我只想提取这一行,类似地,我想提取至少5行,每行以不同的单词或字母开头。所以输出应该只有我要求的那5行。
请给我你的输入。
谢谢你,巴拉特
发布于 2021-02-03 09:39:55
如果想要搜索第一页中的行,可以尝试使用lapply:
lapply(files, function(x) {
tmp <- strsplit(pdf_text(x), "\n")[[1]]
grep('Source Program: lafaf_sfafatfga.sas', tmp, value = TRUE)
}) -> result
result https://stackoverflow.com/questions/65794015
复制相似问题