问印度口音kaldi ASR声学模型的说话人自适应
EN

Stack Overflow用户

提问于 2015-10-24 19:42:28

回答 1查看 707关注 0票数 0

我正在为说印度口音的人进行语音识别。目前，我正在使用Kaldi ASR的在线nnet2解码工具。当说话者的英语发音很好时，这个工具工作得很好。但是，当说话者用不同于美国英语口音的口音说话时，它是失败的。

那么，有没有人可以建议一些使用Kaldi ASR的声学或神经网络模型的说话人自适应程序？

发布于 2017-03-03 04:10:48

有很多方法可以让你做到这一点，或者思考这一点。

1-如果你只讨论重音(这意味着没有新单词，标准语法) ->，那么你应该主要处理模型的声学部分。获取尽可能多的音频和转录数据(数百小时)，这样您就可以更新模型的H部分。

2-如果你正在谈论一些更复杂的东西，你应该考虑更新词库(add word)和语法(fst's) (包括我的第一点)。

您可以尝试从AMI模型及其论文开始，它们包含在Kaldi中的示例中。请参阅Examples included with Kaldi

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33317771

复制

相似问题

问印度口音kaldi ASR声学模型的说话人自适应EN