我正在使用TreeTagger获取西班牙语单词的词条,但我观察到有太多的单词没有像应该的那样进行转换。我想知道这个操作是如何工作的,如果它是通过决策树或机器学习算法等技术完成的,或者它只是包含一个单词列表及其相应的词条。有人知道吗?谢谢!!
发布于 2018-06-11 19:17:30
根据与TreeTagger的作者H. Schmid通过电子邮件进行的个人交流,您的问题的答案是:
词法化函数基于XTAG Project,它包括一个形态分析器。在XTAG项目中,已经分析了几个语料库。考虑到TreeTagger,特别是对宾夕法尼亚树库语料库的分析似乎是相关的,因为这个语料库是TreeTagger的英文参数文件的训练语料库。考虑到词汇化,lemmata被简单地存储在词典中。TreeTagger最终使用这个词典作为查找表。
因此,使用TreeTagger,您只能检索词典中可用的引理。
如果除了TreeeTagger中的选项之外,您还需要词法分析器和合适的训练语料库,尽管这似乎不是强制性的,因为几个分析器即使直接应用于要分析的感兴趣的语料库,也会表现得相当好。
https://stackoverflow.com/questions/50698524
复制相似问题