我正在为说印度口音的人进行语音识别。目前,我正在使用Kaldi ASR的在线nnet2解码工具。当说话者的英语发音很好时,这个工具工作得很好。但是,当说话者用不同于美国英语口音的口音说话时,它是失败的。
那么,有没有人可以建议一些使用Kaldi ASR的声学或神经网络模型的说话人自适应程序?
发布于 2017-03-03 04:10:48
有很多方法可以让你做到这一点,或者思考这一点。
1-如果你只讨论重音(这意味着没有新单词,标准语法) ->,那么你应该主要处理模型的声学部分。获取尽可能多的音频和转录数据(数百小时),这样您就可以更新模型的H部分。
2-如果你正在谈论一些更复杂的东西,你应该考虑更新词库(add word)和语法(fst's) (包括我的第一点)。
您可以尝试从AMI模型及其论文开始,它们包含在Kaldi中的示例中。请参阅Examples included with Kaldi
https://stackoverflow.com/questions/33317771
复制相似问题