我正在尝试使用koRpus进行丰富多样的可读性度量,但我不能正确地使用德语变音。
library(koRpus)
txt1 <- treetag("data/txt1.txt", treetagger="manual", lang="de",
TT.options=list(path="C:/TreeTagger", preset="de-utf8"))
slot(txt1, "TT.res")作品,但变音是“有趣的”:
token tag lemma lttr wclass
1 Schüler NN Schüler 8 noun
2 mussten VMFIN müssen 7 verb
3 außerdem ADV außerdem 9 adverb
...这个文件是UTF-8;tm包可以很好地处理相同的输入文件(但我知道tm和koRpus之间没有转换...):
library(tm)
txt2 <- VCorpus(DirSource("C:/mini/data/", encoding="UTF-8"),
readerControl=list(language="ger"))
inspect(txt2)
<<PlainTextDocument (metadata: 7)>>
Schüler mussten außerdem bloggen und sich mit Margaret Thatcher und Höhlenmalereien beschäftigen我将非常感谢您的建议!
发布于 2015-06-19 23:30:32
我刚刚遇到了一个类似的问题,并通过将向量重新编码为UTF-8来解决它,尽管它已经是UTF-8
Encoding(txt1) <- "UTF-8"不知道这是否有用..。
https://stackoverflow.com/questions/30334130
复制相似问题