首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于CMU狮身人面像的数字识别

基于CMU狮身人面像的数字识别
EN

Stack Overflow用户
提问于 2016-03-23 14:48:11
回答 1查看 868关注 0票数 0

嗨,认可专家,

我有很多mp3文件(原始音频流采样是11.025 kHz),包含数字(0-9)。

不同的说话者(男性/女性)说“一”、“七”、“三”等,其间停顿(~ 2-2.5秒)

我将使用CMU Sphinx识别语音(桌面应用程序)。所以我有一些问题:

  1. MP3解码:我如何解码自己的mp3文件,这意味着我应该指定什么样本来执行(正如我所知道的,它不会被重新转换为上样/下样例流)。我应该在解码时过滤噪声和/或频带吗?
  2. 声学模型:如果我不对流进行采样/降采样,如何找到支持11025 kHz的声学模型。如果我这样做了,什么是最好的数字模型?
  3. 识别模式:我发现有两种模式进行转录-键识别和识别.如果考虑到我只有数字(和一些噪音),会更好。

谢谢

UPD:

尼古拉谢谢你的回答。我试过你的建议

如果你不介意的话,我想多问几句:

  1. 我发现其中一种体锻声学模型比en-us-8khz更精确。可以吗?
  2. 只有45%的文件是正确的。其他55%的人有20-90%的错误。因此,我的问题是:是否有可能估计获得的结果的可信度?例如,我可以跳过文件,哪些文件“不一定”被识别?
  3. 如果答案2是“否”,你有什么建议来提高准确度?我知道这个问题很抽象..。

提前谢谢你!

UPD2:

顺便说一句,最好的参数集(我刚刚介绍了各种参数)是:

代码语言:javascript
复制
-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-23 15:11:23

MP3解码:我如何解码我的mp3文件,这意味着我应该指定哪些采样来执行ffmpeg (正如我所知道的,它不会被重新转换为上样/下样例流)。我应该在解码时过滤噪声和/或频带吗?

代码语言:javascript
复制
 ffmpeg -i file.mp3 -ar 8000 file.wav

声学模型:如果我不对流进行采样/降采样,如何找到支持11025 kHz的声学模型。如果我这样做了,什么是最好的数字模型?

en-us-8khz可在下载中使用,您需要像在教程中一样创建一个数字语法,然后以下列方式使用它

代码语言:javascript
复制
 pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000

识别模式:我发现有两种模式进行转录-键识别和识别.如果考虑到我只有数字(和一些噪音),会更好。

识别模式

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36181380

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档