文章/答案/技术大牛

发布

社区首页 >问答首页 >让R识别包含用于koRpus分析的Word文件的文件

问让R识别包含用于koRpus分析的Word文件的文件
EN

Stack Overflow用户

提问于 2020-11-03 01:32:17

回答 1查看 62关注 0票数 0

我需要一些帮助将文本文件数据加载到R中，以便使用像koRpus这样的包进行分析。

我面临的问题是让R识别一个满是Word文件的文件夹(大约4,000个)作为数据，然后我可以让koRpus执行像Coleman-Liau索引这样的分析。如果可能的话，我更喜欢让它与Word文件一起工作。关键问题是如何使R批量识别(即同时识别)文本(Word)文件，以便koRpus能够处理这些文件。

我做这项工作的尝试都是徒劳的，但我知道，如果不能让包一次处理大量文件集合，像koRpus这样的包的可用性将受到限制。

我希望这个问题对某些人来说是有意义的，并且有一个站得住脚的解决方案。

谢谢，戈登

korpus

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-03 02:05:48

看起来readtext包应该能帮到你了。

library(readtext)

只需在readtext()调用中指定文件夹即可。如下所示：

doc_df <- 
  readtext("doc_files/")

我不熟悉koRpus包，但创建的dataframe中的text列应该包含您想要使用的其他函数所需的内容。

doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"     
#> [3] "Test3: lorem ipsum bla bla"

在回应您的评论时：

看起来您的文件夹中有几种类型的文件，您正在尝试对它们进行筛选，以便只处理docx文件。readtext命令似乎支持这种过滤，但文档中说，这取决于操作系统。我的建议是，在调用readtext()之前，使用R的dir()命令过滤文件夹中的文件

a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64650443

复制

相似问题

问让R识别包含用于koRpus分析的Word文件的文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问让R识别包含用于koRpus分析的Word文件的文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问让R识别包含用于koRpus分析的Word文件的文件
EN