我正在尝试从多个PDF中提取日期,以便在dataset中创建日期列。
我有一个文件夹,保存所有的pdf,并试图做一个主题建模在一个时期内,因此我需要提取日期。
下面是我刚刚拥有的包含文件名的数据集。
# A tibble: 260 x 1
filename
<chr>
1 ./2012.01.18.pdf
2 ./2012.02.07.pdf
3 ./2012.03.12.pdf
4 ./2012.03.26.pdf
5 ./2012.04.02.pdf
6 ./2012.04.04.pdf
7 ./2012.04.19.pdf
8 ./2012.05.01.pdf
9 ./2012.05.07.pdf
10 ./2012.06.14.pdf尝试了"as.Date“,没有运气,因为我无法从保存所有PDF的文件中提取日期。
发布于 2022-11-27 16:47:57
在format中,我们可以为年份(%Y)、月份(%m)和日期(%d)指定额外的字符和自定义格式。
df$V2 <- as.Date(df$V2, format = "./%Y.%m.%d.pdf")-output
> df
V1 V2
1 1 2012-01-18
2 2 2012-02-07
3 3 2012-03-12
4 4 2012-03-26
5 5 2012-04-02
6 6 2012-04-04
7 7 2012-04-19
8 8 2012-05-01
9 9 2012-05-07
10 10 2012-06-14数据
df <- structure(list(V1 = 1:10, V2 = c("./2012.01.18.pdf", "./2012.02.07.pdf",
"./2012.03.12.pdf", "./2012.03.26.pdf", "./2012.04.02.pdf", "./2012.04.04.pdf",
"./2012.04.19.pdf", "./2012.05.01.pdf", "./2012.05.07.pdf", "./2012.06.14.pdf"
)), class = "data.frame", row.names = c(NA, -10L))https://stackoverflow.com/questions/74591842
复制相似问题