我需要一些帮助将文本文件数据加载到R中,以便使用像koRpus这样的包进行分析。
我面临的问题是让R识别一个满是Word文件的文件夹(大约4,000个)作为数据,然后我可以让koRpus执行像Coleman-Liau索引这样的分析。如果可能的话,我更喜欢让它与Word文件一起工作。关键问题是如何使R批量识别(即同时识别)文本(Word)文件,以便koRpus能够处理这些文件。
我做这项工作的尝试都是徒劳的,但我知道,如果不能让包一次处理大量文件集合,像koRpus这样的包的可用性将受到限制。
我希望这个问题对某些人来说是有意义的,并且有一个站得住脚的解决方案。
谢谢,戈登
发布于 2020-11-03 02:05:48
看起来readtext包应该能帮到你了。
library(readtext)只需在readtext()调用中指定文件夹即可。如下所示:
doc_df <-
readtext("doc_files/")我不熟悉koRpus包,但创建的dataframe中的text列应该包含您想要使用的其他函数所需的内容。
doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"
#> [3] "Test3: lorem ipsum bla bla" 在回应您的评论时:
看起来您的文件夹中有几种类型的文件,您正在尝试对它们进行筛选,以便只处理docx文件。readtext命令似乎支持这种过滤,但文档中说,这取决于操作系统。我的建议是,在调用readtext()之前,使用R的dir()命令过滤文件夹中的文件
a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)https://stackoverflow.com/questions/64650443
复制相似问题