问如何使用R库遍历多个pdf文件
EN

Stack Overflow用户

提问于 2021-01-19 21:19:42

回答 1查看 265关注 0票数 0

我有一个任务来读取多个pdf文件，并提取页眉和页脚。

下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚，但我想对多个文件执行相同的操作并提取数据。请给我建议。

library(pdftools)
library(tm)

#Multiple files in a directory
files<- list.files(pattern='pdf$')

#File header and footer extraction
pdf_22 <- pdf_text("Test_List.pdf") %>% str_split("\n")

for (i in 1:35) {
    yy  <- pdf_22[[i]][-5:-24] 
}

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-19 21:26:48

您可以尝试使用lapply：

library(pdftools)
files<- list.files(pattern='pdf$')

lapply(files, function(x) {
  lapply(strsplit(pdf_text(x), "\n"), `[`,  -5:-24)
}) -> result

result

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65792317

复制

相似问题

问如何使用R库遍历多个pdf文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用R库遍历多个pdf文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用R库遍历多个pdf文件
EN