文章/答案/技术大牛

发布

社区首页 >问答首页 >在tm对象和koRpus对象之间来回移动

问在tm对象和koRpus对象之间来回移动
EN

Stack Overflow用户

提问于 2017-02-16 18:07:19

回答 1查看 86关注 0票数 0

我在从tm对象移动到koRpus对象时遇到问题。我必须使用tm工具对语料库进行规范化，使用koRpus对结果进行词汇化，然后返回tm对结果进行分类。为此，我必须将tm对象转换为R数据帧，然后将其转换为excel文件，然后转换为txt文件，最后转换为koRpus对象。代码如下：

#from VCORPUS to DATAFRAME 
dataframeD610P<-data.frame(text=unlist(sapply(Corpus.TotPOS, `[`, "content")), stringsAsFactors=F)

#from DATAFRAME to XLSX 
#library(xlsx)
write.xlsx(dataframeD610P$text, ".\\mycorpus.xlsx")

#open with excel 
#save in csv (UTF-8)

#import in KORPUS and lemmatization with KORPUS/TREETAGGER 

tagged.results <- treetag(".\\mycorpus.csv", treetagger="manual", lang="it", sentc.end = c(".", "!", "?", ";", ":"),
                          TT.options=list(path="C:/TreeTagger", preset="it-utf8", no.unknown=T))

然后我需要全部倒着做才能回到tm。代码如下：

#from KORPUS to TXT 
write.table(tagged.results@TT.res$lemma, ".\\mycorpusLEMMATIZED.txt")

#open with a text editor and formatting of the text

#from TXT to R
Lemma1.POS<- readLines(".\\mycorpusLEMMATIZEDfrasi.txt", encoding = "UTF-8")

#from R object to DATAFRAME
Lemma2.POS<-as.data.frame(Lemma1.POS, encoding = "UTF-8")

#from DATAFRAME to CORPUS
CorpusPOSlemmaFINAL = Corpus(VectorSource(Lemma2.POS$Lemma1.POS))

有没有一种更优雅的解决方案可以在不离开R的情况下做到这一点？如果有任何帮助或反馈，我将非常感谢。

顺便说一句，有没有人知道如何询问tm VCorpus中的哪个文档包含特定的令牌？我通常将语料库转换为数据帧来识别文档。有没有办法在tm中做到这一点？

text-mining

korpus

回答 1

Stack Overflow用户

发布于 2017-02-20 22:13:25

多亏了unDocUMeantIt，才有可能在这里找到答案https://github.com/unDocUMeantIt/koRpus/issues/6

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42270743

复制

相似问题

问在tm对象和koRpus对象之间来回移动
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在tm对象和koRpus对象之间来回移动EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在tm对象和koRpus对象之间来回移动
EN