文章/答案/技术大牛

发布

社区首页 >问答首页 >基于CMU狮身人面像的数字识别

问基于CMU狮身人面像的数字识别
EN

Stack Overflow用户

提问于 2016-03-23 14:48:11

回答 1查看 868关注 0票数 0

嗨，认可专家，

我有很多mp3文件(原始音频流采样是11.025 kHz)，包含数字(0-9)。

不同的说话者(男性/女性)说“一”、“七”、“三”等，其间停顿(~ 2-2.5秒)

我将使用CMU Sphinx识别语音(桌面应用程序)。所以我有一些问题：

MP3解码：我如何解码自己的mp3文件，这意味着我应该指定什么样本来执行(正如我所知道的，它不会被重新转换为上样/下样例流)。我应该在解码时过滤噪声和/或频带吗？
声学模型：如果我不对流进行采样/降采样，如何找到支持11025 kHz的声学模型。如果我这样做了，什么是最好的数字模型？
识别模式：我发现有两种模式进行转录-键识别和识别.如果考虑到我只有数字(和一些噪音)，会更好。

谢谢

UPD:

尼古拉谢谢你的回答。我试过你的建议

如果你不介意的话，我想多问几句：

我发现其中一种体锻声学模型比en-us-8khz更精确。可以吗？
只有45%的文件是正确的。其他55%的人有20-90%的错误。因此，我的问题是:是否有可能估计获得的结果的可信度？例如，我可以跳过文件，哪些文件“不一定”被识别？
如果答案2是“否”，你有什么建议来提高准确度？我知道这个问题很抽象..。

提前谢谢你！

UPD2:

顺便说一句，最好的参数集(我刚刚介绍了各种参数)是：

-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5

speech-recognition

voice-recognition

cmusphinx

pocketsphinx

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-23 15:11:23

MP3解码:我如何解码我的mp3文件，这意味着我应该指定哪些采样来执行ffmpeg (正如我所知道的，它不会被重新转换为上样/下样例流)。我应该在解码时过滤噪声和/或频带吗？

 ffmpeg -i file.mp3 -ar 8000 file.wav

声学模型:如果我不对流进行采样/降采样，如何找到支持11025 kHz的声学模型。如果我这样做了，什么是最好的数字模型？

en-us-8khz可在下载中使用，您需要像在教程中一样创建一个数字语法，然后以下列方式使用它

 pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000

识别模式:我发现有两种模式进行转录-键识别和识别.如果考虑到我只有数字(和一些噪音)，会更好。

识别模式

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36181380

复制

相似问题

问基于CMU狮身人面像的数字识别
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于CMU狮身人面像的数字识别EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于CMU狮身人面像的数字识别
EN