首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >java语音识别Sphinx 4

java语音识别Sphinx 4
EN

Stack Overflow用户
提问于 2010-01-19 11:52:17
回答 2查看 2.1K关注 0票数 1

我想使用sphinx4或HTK工具包来构建一个语音识别应用程序,该应用程序旨在从语音中估计一个人的年龄。我在更大程度上理解语音识别中涉及的统计模型。我对Mel频率倒谱系数和高斯混合模型感兴趣,因为这两个模型更适合我的问题领域。我是否必须使用神经网络,并从狮身人面像分类器派生的向量中输入训练数据?我不太确定从哪里开始使用sphinx或HTK工具包。我是第一次接触sphinx和语音识别,我的应用程序只是一个原型。

请任何人在这方面提供一些形式的指导。致以亲切的问候。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-01-19 12:35:55

通常,开始这类工作的第一步是从学术界寻找之前的相关工作。在Minematsu et al. 2002中,他们使用基于mel倒谱系数的高斯混合模型(GMM)来区分年长和年轻的说话者。

想必,如果你可以访问年长的和年轻的说话者的训练数据,你应该能够做到同样的事情。即使您想尝试其他分类器后端,例如神经网络,从GMM开始可能也是很好的,因为您知道它们应该适用于您的任务,并且它们会为您提供一些东西来与您想要尝试使用的任何其他分类器进行比较。

如果你只是为了好玩或者作为一个研究项目,我会推荐使用HTK,因为我喜欢它的模块化。然而,如果这是为了商业目的而停用的,你可能应该使用Sphinx,因为它可以在类似BSD的许可下重新分发。

票数 0
EN

Stack Overflow用户

发布于 2010-05-06 02:43:59

我决定不使用Sphinx 4,因为它基于隐马尔可夫模型,该模型主要用于序列分析,例如语音识别,甚至是基于输入序列的界面多模式输入。例如,我使用了一个名为Praat的软件,它用于语音处理和合成。如果你喜欢,还有一个“插件”,叫做"Akustyk“,用来分析元音等等。也许这个方向会对你有价值,我不确定。

然后,您可以使用mathlab并使用模式识别工具箱来实现您的神经网络、GMM或您希望采用的任何方法。

希望能对你有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2090941

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档