我在R中为测试文档(000_1.txt,000_2.txt,000_11.txt)中的单词频率创建了一个脚本,我希望文件的精化顺序为数字结尾(1,2,11)。
SO是Windows 7。目录"E:\testR“包含这些文件。
这是代码
library("tm")
pathElaboration <- "E:/testR"
setwd(pathElaboration)
dirSource <- DirSource(pathElaboration, encoding = "ISO-8859-2",pattern="*.txt")
vCorpusFiles <- VCorpus(dirSource, readerControl = list(language = "en"))
for (i in seq(from= 1, to=length(vCorpusFiles), by=1))
{
dtm <- DocumentTermMatrix(vCorpusFiles[i])
vectorFrequencyWord <- as.matrix(dtm)
print(vectorFrequencyWord)
}但结果是
Terms
Docs file1
000_1.txt 1
Terms
Docs wordinfile11
000_11.txt 1
Terms
Docs wordinfile2
000_2.txt 1我会详细介绍序列000_1.txt,000_2.txt,000_11.txt
我该如何解决这个问题呢?
发布于 2015-07-21 09:30:44
这是一个文本排序顺序,所以这应该是可行的:
dtm <- dtm[order(Docs(dtm)), ]https://stackoverflow.com/questions/31522315
复制相似问题