嗨,认可专家,
我有很多mp3文件(原始音频流采样是11.025 kHz),包含数字(0-9)。
不同的说话者(男性/女性)说“一”、“七”、“三”等,其间停顿(~ 2-2.5秒)
我将使用CMU Sphinx识别语音(桌面应用程序)。所以我有一些问题:
谢谢
UPD:
尼古拉谢谢你的回答。我试过你的建议
如果你不介意的话,我想多问几句:
提前谢谢你!
UPD2:
顺便说一句,最好的参数集(我刚刚介绍了各种参数)是:
-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5发布于 2016-03-23 15:11:23
MP3解码:我如何解码我的mp3文件,这意味着我应该指定哪些采样来执行ffmpeg (正如我所知道的,它不会被重新转换为上样/下样例流)。我应该在解码时过滤噪声和/或频带吗?
ffmpeg -i file.mp3 -ar 8000 file.wav声学模型:如果我不对流进行采样/降采样,如何找到支持11025 kHz的声学模型。如果我这样做了,什么是最好的数字模型?
en-us-8khz可在下载中使用,您需要像在教程中一样创建一个数字语法,然后以下列方式使用它
pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000识别模式:我发现有两种模式进行转录-键识别和识别.如果考虑到我只有数字(和一些噪音),会更好。
识别模式
https://stackoverflow.com/questions/36181380
复制相似问题