首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将PDF文件名中的日期提取为数据集?

如何将PDF文件名中的日期提取为数据集?
EN

Stack Overflow用户
提问于 2022-11-27 16:38:38
回答 1查看 31关注 0票数 1

我正在尝试从多个PDF中提取日期,以便在dataset中创建日期列。

我有一个文件夹,保存所有的pdf,并试图做一个主题建模在一个时期内,因此我需要提取日期。

下面是我刚刚拥有的包含文件名的数据集。

代码语言:javascript
复制
# A tibble: 260 x 1
   filename        
   <chr>           
 
1 ./2012.01.18.pdf
 2 ./2012.02.07.pdf
 3 ./2012.03.12.pdf
 4 ./2012.03.26.pdf
 5 ./2012.04.02.pdf
 6 ./2012.04.04.pdf
 7 ./2012.04.19.pdf
 8 ./2012.05.01.pdf
 9 ./2012.05.07.pdf
10 ./2012.06.14.pdf

尝试了"as.Date“,没有运气,因为我无法从保存所有PDF的文件中提取日期。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-11-27 16:47:57

format中,我们可以为年份(%Y)、月份(%m)和日期(%d)指定额外的字符和自定义格式。

代码语言:javascript
复制
df$V2 <-  as.Date(df$V2, format = "./%Y.%m.%d.pdf")

-output

代码语言:javascript
复制
> df
   V1         V2
1   1 2012-01-18
2   2 2012-02-07
3   3 2012-03-12
4   4 2012-03-26
5   5 2012-04-02
6   6 2012-04-04
7   7 2012-04-19
8   8 2012-05-01
9   9 2012-05-07
10 10 2012-06-14

数据

代码语言:javascript
复制
df <- structure(list(V1 = 1:10, V2 = c("./2012.01.18.pdf", "./2012.02.07.pdf", 
"./2012.03.12.pdf", "./2012.03.26.pdf", "./2012.04.02.pdf", "./2012.04.04.pdf", 
"./2012.04.19.pdf", "./2012.05.01.pdf", "./2012.05.07.pdf", "./2012.06.14.pdf"
)), class = "data.frame", row.names = c(NA, -10L))
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74591842

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档