首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文档的(人类)语言

文档的(人类)语言
EN

Stack Overflow用户
提问于 2008-11-02 18:01:13
回答 5查看 940关注 0票数 4

有没有办法(程序、库)大致知道文档是用哪种语言编写的?

我有一堆混合语言的文本文档(~500K)要导入到支持i18n的内容管理系统(Drupal.

我不需要完美的匹配,只需要一些猜测。

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2008-11-02 18:10:34

有一种非常简单的方法可以做到这一点,假设你有需要识别的所有不同语言的语料库数据。这被称为n元语法建模。我认为Lingua::Identify已经做到了这一点,所以这是你最好的选择,而不是实现你自己的。

票数 6
EN

Stack Overflow用户

发布于 2008-11-02 18:05:13

似乎有一个Perl模块可以做到这一点:Lingua::Identify

保罗。

票数 0
EN

Stack Overflow用户

发布于 2008-11-02 18:06:16

我会说,你最好的办法是寻找关键词--文章之类的东西--这些关键词对于你正在寻找的语言来说是独一无二的。例如,"Un“将同时出现在西班牙语和法语中,但"une”是可识别的法语,而"unos“则可识别为西班牙语。发音符号也很有用--你会看到西班牙语和葡萄牙语中的"ñ“,法语中的"ç”和其他一些……诸如此类的。

编辑-Paul的解决方案可能是最好的;看起来它使用了我概述的方法,外加一些额外的方法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/257125

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档