首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >让R识别包含用于koRpus分析的Word文件的文件

让R识别包含用于koRpus分析的Word文件的文件
EN

Stack Overflow用户
提问于 2020-11-03 01:32:17
回答 1查看 62关注 0票数 0

我需要一些帮助将文本文件数据加载到R中,以便使用像koRpus这样的包进行分析。

我面临的问题是让R识别一个满是Word文件的文件夹(大约4,000个)作为数据,然后我可以让koRpus执行像Coleman-Liau索引这样的分析。如果可能的话,我更喜欢让它与Word文件一起工作。关键问题是如何使R批量识别(即同时识别)文本(Word)文件,以便koRpus能够处理这些文件。

我做这项工作的尝试都是徒劳的,但我知道,如果不能让包一次处理大量文件集合,像koRpus这样的包的可用性将受到限制。

我希望这个问题对某些人来说是有意义的,并且有一个站得住脚的解决方案。

谢谢,戈登

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-03 02:05:48

看起来readtext包应该能帮到你了。

代码语言:javascript
复制
library(readtext)

只需在readtext()调用中指定文件夹即可。如下所示:

代码语言:javascript
复制
doc_df <- 
  readtext("doc_files/")

我不熟悉koRpus包,但创建的dataframe中的text列应该包含您想要使用的其他函数所需的内容。

代码语言:javascript
复制
doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"     
#> [3] "Test3: lorem ipsum bla bla" 

在回应您的评论时:

看起来您的文件夹中有几种类型的文件,您正在尝试对它们进行筛选,以便只处理docx文件。readtext命令似乎支持这种过滤,但文档中说,这取决于操作系统。我的建议是,在调用readtext()之前,使用R的dir()命令过滤文件夹中的文件

代码语言:javascript
复制
a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64650443

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档