首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本挖掘软件包.入门级

文本挖掘软件包.入门级
EN

Software Recommendation用户
提问于 2022-01-02 14:19:04
回答 1查看 9关注 0票数 1

我正在寻找一个简单的使用R包,将允许我:

  1. 分析一组文本数据的频率
  2. 请允许我很容易地排除常见术语,例如“和”“是”
  3. 允许经常分析链接词,如“未付款发票”或“被客户拒绝”

我正在寻找的东西,允许一个开始的R级用户使用。谢谢

EN

回答 1

Software Recommendation用户

回答已采纳

发布于 2022-01-02 19:29:50

潮汐文本允许您这样做。

还有一本关于tidytexthttps://www.tidytextmining.com/index.html的免费书籍。

  1. 数字频率:
代码语言:javascript
复制
library(tidytext)
library(dplyr)

somewords <- "the lorem ipsum text with some common words.. very common words can be found quite often. these are often commonly used words enmeshed with lorem ipsum."

tibble(somewords) %>%
  unnest_tokens(word, somewords) %>%
  group_by(word) %>%
  count() %>%
  arrange(desc(n))
  1. 排除常用词
代码语言:javascript
复制
tibble(somewords) %>%
  unnest_tokens(word, somewords) %>%
  filter(!word %in% stop_words$word)
  1. 找出常见的词组合
代码语言:javascript
复制
bigrams <- tibble(somewords) %>%
  unnest_tokens(bigram, somewords, token = "ngrams", n = 2)

bigrams <- bigrams %>%
  count(bigram, sort = TRUE)
票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/81725

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档