我有一个任务来读取多个pdf文件,并提取页眉和页脚。
下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚,但我想对多个文件执行相同的操作并提取数据。请给我建议。
library(pdftools)
library(tm)
#Multiple files in a directory
files<- list.files(pattern='pdf$')
#File header and footer extraction
pdf_22 <- pdf_text("Test_List.pdf") %>% str_split("\n")
for (i in 1:35) {
yy <- pdf_22[[i]][-5:-24]
}发布于 2021-01-19 21:26:48
您可以尝试使用lapply:
library(pdftools)
files<- list.files(pattern='pdf$')
lapply(files, function(x) {
lapply(strsplit(pdf_text(x), "\n"), `[`, -5:-24)
}) -> result
resulthttps://stackoverflow.com/questions/65792317
复制相似问题