首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用R库遍历多个pdf文件

如何使用R库遍历多个pdf文件
EN

Stack Overflow用户
提问于 2021-01-19 21:19:42
回答 1查看 265关注 0票数 0

我有一个任务来读取多个pdf文件,并提取页眉和页脚。

下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚,但我想对多个文件执行相同的操作并提取数据。请给我建议。

代码语言:javascript
复制
library(pdftools)
library(tm)

#Multiple files in a directory
files<- list.files(pattern='pdf$')

#File header and footer extraction
pdf_22 <- pdf_text("Test_List.pdf") %>% str_split("\n")

for (i in 1:35) {
    yy  <- pdf_22[[i]][-5:-24] 
}
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-19 21:26:48

您可以尝试使用lapply

代码语言:javascript
复制
library(pdftools)
files<- list.files(pattern='pdf$')

lapply(files, function(x) {
  lapply(strsplit(pdf_text(x), "\n"), `[`,  -5:-24)
}) -> result

result
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65792317

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档