文章/答案/技术大牛

发布

社区首页 >问答首页 >文本挖掘软件包.入门级

问文本挖掘软件包.入门级
EN

Software Recommendation用户

提问于 2022-01-02 14:19:04

回答 1查看 9关注 0票数 1

我正在寻找一个简单的使用R包，将允许我：

分析一组文本数据的频率
请允许我很容易地排除常见术语，例如“和”“是”
允许经常分析链接词，如“未付款发票”或“被客户拒绝”

我正在寻找的东西，允许一个开始的R级用户使用。谢谢

text-processing

回答 1

Software Recommendation用户

回答已采纳

发布于 2022-01-02 19:29:50

潮汐文本允许您这样做。

还有一本关于tidytext在https://www.tidytextmining.com/index.html的免费书籍。

数字频率：

library(tidytext)
library(dplyr)

somewords <- "the lorem ipsum text with some common words.. very common words can be found quite often. these are often commonly used words enmeshed with lorem ipsum."

tibble(somewords) %>%
  unnest_tokens(word, somewords) %>%
  group_by(word) %>%
  count() %>%
  arrange(desc(n))

排除常用词

tibble(somewords) %>%
  unnest_tokens(word, somewords) %>%
  filter(!word %in% stop_words$word)

找出常见的词组合

bigrams <- tibble(somewords) %>%
  unnest_tokens(bigram, somewords, token = "ngrams", n = 2)

bigrams <- bigrams %>%
  count(bigram, sort = TRUE)

票数 0

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/81725

复制

相似问题

问文本挖掘软件包.入门级
EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本挖掘软件包.入门级EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本挖掘软件包.入门级
EN