当采用说话人15分钟语音的声学模型时,错误率太高(从6-10个单词中识别出正确的1个单词)。我所做的: 1.我已经将阿拉伯语单词转录成俄语,并将它们放入字典中。2.我已经尝试了ru4sphinx项目的旧模型msu_ru_zero.cd_cont_2000和cmusphinx-ru-5.2的新模型(目前最新的俄语声学模型)。只有很少的(40个中的4个)音频音轨改编失败,“align audio to transcript",其他的都没有错误。此外,在bw命令使用之后的报告中,有220个感应器不在自适应音轨中。或者我