问使用德语文本的koRpus :编码问题
EN

Stack Overflow用户

提问于 2015-05-20 03:06:59

回答 1查看 338关注 0票数 0

我正在尝试使用koRpus进行丰富多样的可读性度量，但我不能正确地使用德语变音。

library(koRpus)
txt1 <- treetag("data/txt1.txt", treetagger="manual", lang="de", 
    TT.options=list(path="C:/TreeTagger", preset="de-utf8"))
slot(txt1, "TT.res")

作品，但变音是“有趣的”：

              token   tag          lemma lttr      wclass
1          SchÃ¼ler    NN       SchÃ¼ler    8        noun
2           mussten VMFIN        mÃ¼ssen    7        verb
3         auÃŸerdem   ADV      auÃŸerdem    9      adverb
...

这个文件是UTF-8；tm包可以很好地处理相同的输入文件(但我知道tm和koRpus之间没有转换...)：

library(tm)
txt2 <- VCorpus(DirSource("C:/mini/data/", encoding="UTF-8"), 
    readerControl=list(language="ger"))
inspect(txt2)

<<PlainTextDocument (metadata: 7)>>
Schüler mussten außerdem bloggen und sich mit Margaret Thatcher und Höhlenmalereien beschäftigen

我将非常感谢您的建议！

回答 1

Stack Overflow用户

发布于 2015-06-19 23:30:32

我刚刚遇到了一个类似的问题，并通过将向量重新编码为UTF-8来解决它，尽管它已经是UTF-8

Encoding(txt1) <- "UTF-8"

不知道这是否有用..。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30334130

复制

相似问题

问使用德语文本的koRpus :编码问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用德语文本的koRpus :编码问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用德语文本的koRpus :编码问题
EN