我使用的是koRpus,它是NLP库TreeTagger的R包装器。我正在处理法语和寻找引理。问题:标记器阶段没有输出我想要的内容,撇号有问题,它们被分组到下面的单词中
例如,它输出"l'oiseau“作为术语(而不是"oiseau")。
这是我当前的函数调用:
treetag("mytext.txt", treetagger="manual", lang="fr",
sentc.end = c(".", "!", "?", ";", ":","'"),
TT.options=list(path="TreeTagger", preset="fr"))预先使用字符串对文本进行预处理(去掉'),并将结果字符串传递给treetag几乎不是一个可行的选择,因为treetag只能接受文件,而不能接受字符串作为其输入。
谢谢。
发布于 2016-11-21 21:40:31
我的法语也有同样的问题。添加记号赋予器选项"-f“对我有效。尝试:
treetag("mytext.txt", treetagger="manual", lang="fr",
sentc.end = c(".", "!", "?", ";", ":","'"),
TT.options=list(path="TreeTagger", preset="fr",tknz.opts="-f"))https://stackoverflow.com/questions/24218104
复制相似问题