我对twitter数据做了一些文本挖掘练习。最初的dataframe有1280行。为避免:
LDA中的错误(dtm_cea,k= 8):输入矩阵的每一行至少需要包含一个非零项。
我在稀疏矩阵中消除了没有条目的任何行:
rowTotals <- apply(dtm , 1, sum)
dtm.new <- dtm[rowTotals_cea> 0, ]
lda <- LDA(dtm.new, k = 8)
topic <- topics(lda, 1)因此,我的dtm.new丢失了几行;实际上,行数减少到1273行。
事实上,现在我需要从原始的dataframe (1280行)中检索另一列,并使用topic (1273行)重新绑定,以生成一个图表。如何在原始数据中,由于对DTM所做的更改,应该删除哪些行?
发布于 2017-07-11 19:51:10
您需要跟踪正在删除的索引,或者重构用于删除它们的索引。
rowstokeep <- rowTotals > 0
newdataframe <- originaldataframe[rowstokeep, ]https://stackoverflow.com/questions/45043296
复制相似问题