搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏知识点分享
声学简介
什么是声学？声学是研究声音的物理学，研究内容包括声信号的产生、传输和检测等所有与之相关的多物理学科。波的传播速度为声速（SI 单位：m/s），其值与传播声波的材料本身的压缩率（SI 单位m2/N或1/Pa）和密度（SI 单位：kg/m3）有关，用表示。一维波动方程的通解由下式给出（3）其中为任意函数，符号可以确定波是正向运动还是反向运动。实际上，最常用的通解是此类函数的线性组合，当我们考虑初始条件时，可将其称为达朗贝尔公式。声学范围下载LMS Virtual.Lab 声学手册在声学中，声音由传播介质产生、在其中传播并受其影响，最终被人们检测、感知并进行分析。显而易见，声学在本质上涉及多个学科和多个物理场。在这里，我们主要讨论与工程和地球科学相关的声学物理原理。
1.1K20编辑于 2022-06-01
来自专栏深度学习|机器学习|歌声合成|语音合成
声学特征提取and WORLD Using
声谱图（Spectrogram） image.png 这段语音被分为很多帧，每帧语音都对应于一个频谱（通过短时FFT计算），频谱表示频率与能量的关系。在实际使用中，频谱图有三种，即线性振幅谱、对数振幅谱、自功率谱（对数振幅谱中各谱线的振幅都作了对数计算，所以其纵坐标的单位是dB（分贝）。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号）。 image.png 我们先将其中一帧语音的频谱通过坐标表示出来，如上图左。现在我们将左边的频谱旋转90度。得到中
64210发布于 2021-01-14
来自专栏深度应用
·主流声学模型对比
主流声学模型对比目录概述基础概念语音帧语音识别系统主流声学建模技术 HMM DNN-HMM FFDNN CNN RNN及LSTM CTC 其他建模技术语言建模技术语音唤醒技术关于未来，找到最为匹配的词序列作为识别结果输出，整体流程请见图3。 +ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil ? 图3 语音识别系统流程 ? 图4 语音识别原理需要注意的是，输入特征矢量X代表语音的特征。主流声学建模技术近年来，随着深度学习的兴起，使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代，模型精度也有了突飞猛进的变化，整体来看声学建模技术从建模单元
3.9K22发布于 2019-06-27
来自专栏硬件大熊
浅析硬件“好声音”: 声学器件
音视频硬件中，声学器件是必不可少的基础元件，声学器件主要包括麦克风和喇叭，麦克风拾取声音，喇叭播放声音。所以归麦克风凭借其良好的性能，迅速成为消费类产品的首选声学元器件。如下图所示为两种类型麦克风的示例图。
1.5K20编辑于 2022-06-23
来自专栏音乐与健康
解析声音“疗伤”的密码（音波声学）
该研究历时3年多完成，经历了一番紧张而艰难的攻关，离不开课题组年轻人的付出和努力。课题组25人，大部分是博士研究生或博士刚毕业的年轻人。　　这次研究的思路源于2019年的一次“闲聊”。研究人员首先给爪子发炎的小鼠播放3种不同类型的声音，分别是舒缓的音乐、不协调的音符及白噪音。结果显示，这3种声音在低强度——大约是耳语水平——播放时，都能有效缓解小鼠的疼痛，而在高强度播放时，则无明显的镇痛效果。　　有研究假说认为，声音的镇痛效果可能与治疗环境密切相关。柏林声学实验室更发现。低频段（60-80Hz）音波能像物理按摩般刺激副交感神经。古琴大师龚一演奏的《流水》。每个泛音间隔0.8秒。恰好匹配深度呼吸的黄金节奏。
31210编辑于 2025-10-25
来自专栏全栈程序员必看
基于Speex的声学回声消除
所谓声学回声消除，是为了解决VoIP（网络电话）中这样一个问题：即A与B进行通话，A端有麦克风和扬声器分别用来采集A的声音和播放B的声音，B端有麦克风和扬声器分别用来采集B的声音和播放声学回声消除一般可以通过硬件和软件分别实现，目前来说，硬件实现比较简单，软件实现较难，这里的难并不是说回声消除算法很难，而是在应用算法时的实时同步问题很难，目前软件实现较好的应该是微软，但似乎也对硬件配置和操作系统有要求而Speex提供了声学回声消除算法库，本文就简单用Speex对一段录音进行回声消除，当然这不是实时处理的。原文参见http://www.360doc.com/content/11/1008/18/11192_154383516.shtml，原文所用speex版本是1.1.9，我们用的是speex-1.2beta3- include #include /*在项目属性里设置VC++目录的包含目录和库目录分别为speex库中的include和lib，我用的是speex-1.2beta3-
4.5K20编辑于 2022-11-16
来自专栏深度学习|机器学习|歌声合成|语音合成
语音合成-声学概念和变声变调
声学概念声音是靠波来传播的，区别任何的声音需要依据三个来区分：响度、音高和音色响度音高:声音具有确定的音高，声音就可以使空气以笃定的方式运行。低音就是频率低。频谱：描述各种波的振幅的大小的图叫做频谱图，这在声学中是相当的重要的。
1.6K10发布于 2021-01-14
来自专栏进击的多媒体开发
声学工程师应知道的150个声学基础知识（全篇）
和大家分享一下声学工程师应知道的150个声学基础知识。注意，声学工程师和音频工程师可不是同一岗位，前者会更侧重于硬件，后者侧重于软件层面。但是关于声音的一些基础内容还是相同的，可以多多了解！！！以下是全部的基础知识，内容来源于声学楼论坛。 1、人耳能听到的频率范围是20Hz—20KHz。 2、把声能转换成电能的设备是传声器。 3、把电能转换成声能的设备是扬声器。 29、人耳对1~3KHZ的声音最为灵敏。 30、人耳对100Hz以下，8K以上的声音感觉较迟钝。 31、舞台两侧的早期反射声对原发声起加重和加厚作用，属有益反射声作用。 79、100HZ非正弦周期信号的3次谐波为300HZ。 80、300HZ非正弦周期信号的5次谐波为1500HZ。 81、80HZ非正弦周期信号的5次谐波为400HZ。 85、均衡器按40、50、63、80、100、125、160、200、250、315、400…20K划分频段，是1/3倍频程划分。 86、最佳混响时间选择最长的场所是音乐厅。
4K20编辑于 2022-10-31
来自专栏音乐与健康
我们为什么选择“声学神经调控”这条路？
2024年哈佛大学医学院在《Nature Neuroscience》的研究证实，特定模式的声学信号能调节神经振荡同步性，且这种调节具有长期稳定性；2025年斯坦福大学医学院的临床数据更显示，声学干预的不良反应发生率比电 /磁刺激低82%——安全性与长效性，正是鲸倍尔选择声学神经调控路径的核心依据。 · 骨传导 = 更精准的声音生物标志物落地形态实验数据显示，骨传导能绕过空气传导的信号衰减与环境干扰，直接通过颅骨-耳蜗通路传递声波，神经响应信号信噪比提升3倍，更能精准反映大脑皮层的实时状态。骨声纹正是基于这些研究，捕捉与神经张力、应激水平、生理节律相关的声学特征集合。 Nature Protocols, 16(3), 1457-1495 (2021).3. Science Translational Medicine.
3900编辑于 2026-04-22
来自专栏音视频技术
非线性声学回声消除技术
非线性的声学回声消除问题，在实际声学系统里面非常普遍也非常棘手，到目前为止还没有特别有效的办法来解决。目前介绍非线性声学回声消除的公开文献也少之又少。 1.非线性声学回声 1.1 什么是非线性声学回声？ 1.1.1 什么是非线性的声学回声下面我们直接进入到第一个部分，什么是非线性的声学回声？非线性声学回声产生的原因非线性声学回声产生的原因，我一共列了两条原因。原因之一，声学器件的小型化与廉价化，这里所指的声学器件就是前面B里面提到的功率放大器和喇叭。非线性声学回声系统建模继续回到前面的这个声学回声路径图。我们对这个模型进行了简化。 3.实验结果分析这里我主要是分了两个实验场景比较双耦合算法和NLMS算法的性能，第一个是单讲测试场景，第二个就是双讲测试场景。
2.4K30发布于 2020-11-10
来自专栏黄成甲
声学相机：用“眼睛”看见声音的奥秘
声学相机的“视觉”如何形成？硬件基础：麦克风阵列的奥秘说到声学相机的视觉形成，这里就不得不提到麦克风阵列设计。智能城市：体育场球迷互动声学相机在智能城市的体育场球迷互动与建筑声学优化中展现出多模态感知与精准溯源的核心能力。技术升级方面，AI深度学习算法与声学相机深度融合，实现数据驱动的声学优化。其高密度麦克风阵列（如162通道或64通道）结合波束成形技术，可在0.01秒内完成信号捕捉与图像生成，例如某化工厂利用该设备在30分钟内完成全厂检测，而传统肥皂水检测需耗时3天。更值得期待的是，量子计算与生物声学模型的融合，或将开启跨物种声波通信的探索。当前，声学可视化技术标准化进程亟待加速。
2K12编辑于 2025-07-29
来自专栏AI研习社
一文详解 DNN 在声学应用中的模型训练
本文通过简单kaldi源码，分析DNN训练声学模型时神经网络的输入与输出。 = 13 p = 0.01 [3 -> 1] Transition-id = 14 p = 0.01 [3 -> 2] Transition-id = 15 p = 0.932347 [self-loop 3 3 3 4 440 440 440 440 440 440 440 441 442 442 442 442 38 39 39 40 40 40 40 40 40 40 40 40 40 40 40 1 ] [ 3 1 ] [ 3 1 ] [ 3 1 ] [ 4 1 ] [ 440 1 ] [ 440 1 ] [ 440 1 ] [ 440 1 ] [ 440 1 ] [ 440 1 ] [ 440 -2 -1 0 1 2 3 4 5 ] <!
1.7K60发布于 2018-03-19
语音情感分析技术解析：声学与词汇信息融合
混合架构与两阶段训练传统语音情感分析方法通常包含两个步骤：提取预定义的声学特征（如音高和频谱能量波动），再基于这些特征进行分类。这类方法对短时情感表达有效，但对自然对话场景的性能有限。某中心的语音语调分析采用混合方案：结合声学特征与语言信息，采用编码器-解码器结构的自动语音识别（ASR）模型。模型同时接受情感识别和语音识别训练，随后冻结编码器作为情感分类前端。技术架构特点深度学习前端通过自监督预训练提取语音信号特征ASR分支编码器对应声学模型，将声学特征映射为词块抽象表示解码器对应语言模型，将词块组合成有意义词汇异构数据集训练策略传统模型使用小规模短语句数据集实际部署中：处理5秒语音片段，每2.5秒更新一次实时计算语音存在概率和情感概率基于短期情感概率计算过去30秒及全程的情感估计测试表明，该混合模型性能优于仅依赖文本或声学数据的传统方法。
33910编辑于 2025-09-13
来自专栏FreeBuf
利用声学密码分析攻击破译4096位RSA加密算法
令人惊奇的结果是，攻击者利用“声学密码分析攻击”能够在不到一个小时内发现获得一个很长的RSA密钥。这篇论文中总结： “在这里,我们描述了一种新的声学密码分析提取攻击,适用于GnuPG最新提出实现的RSA。此外,声学频谱通常具有关键的依赖性，那么密钥便可以通过在电脑加密解密过程中的声音进行区分识别。这同样也适用于ElGamal解密。” 研究人员观察到的声学密码分析攻击使用高质量的抛物型麦克风的攻击距离范围超过4米，同时如果不使用这种接收装置的攻击距离范围可达一米。 ? 使用GnuPG的一些机器可以做到: 区分不同的声学特征 RSA密钥 (签名或解密), 完全提取解密密钥，通过测量分析的机器解密时的声音。
2.5K60发布于 2018-02-01
来自专栏VoiceVista语音智能
语音识别与声纹识别 - 来自声学楼电声技术网络交流平台
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
86630发布于 2019-12-05
来自专栏数据派THU
你的声音作为一种“武器”：人类战争中声学活动
《一战的结束》是根据第一次世界大战期间发明的众多声学防御方法中的一种创作的。在一战开始时，基本上是没有声学防御的概念的。没有一支主要的军队有效地通过敌人发出的声音来追踪它的位置。历史上曾经有一些声学反射器的例子，但是第一个专门为军事用途设计的抛物面声学反射器是在 1915 年由 René Baillaud 发明的，它的外形类似盘子或者碗。我们发现了尺寸越来越大的仪器，直径从 60 厘米到 3 米不等，形状各异，而且抛物面看起来不太像凹形盘子，而更像深碗。在一些声学防御方法中，声音的视觉表示以及与声学活动相关的计算取代了听觉，例如确定风和温度等大气条件对特定日期声音传播的影响。换句话说，在声学防御中，声音 “听起来” 的方式并不总是很重要。虽然这与关于声音的成熟想法是一致的，但声学防御技术使我们能够以一种有形的方式体验声音，就像 “物质的振动运动” 一样。声学防御同样使 “声音传播” 的概念具体化。
68610编辑于 2023-03-29
声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里
然而，这一技术的发展也带来了诸多法律和伦理问题，特别是关于声学版权的问题。本文将深入探讨声纹克隆技术的原理、应用以及其在法律上的“合法边界”。特征提取：从语音样本中提取声学特征。模型训练：使用深度学习模型（如Tacotron或WaveNet）进行训练。语音合成：生成与目标声音相似的合成语音。定义模型参数wavenet_params = { "n_channels": 256, "n_layers": 20, "n_stacks": 2, "kernel_size": 3, 总结本文深入探讨了声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里的相关技术，从原理到实践，从基础到进阶，希望能够帮助读者全面掌握这一技术。
28410编辑于 2026-01-06
语音识别技术前沿：自监督学习与声学表征新突破
新型声学表征传统梅尔频谱基于信号处理和人耳听觉机制，而新型表征不假设信号特定结构，在语音识别和合成中表现更优。最有效的表征基于自监督学习，通过无标注输入定义辅助任务生成伪标注训练数据。
33710编辑于 2025-09-24
来自专栏音乐与健康
用于改善声学黑洞低频性能的多模态局域谐振器
文章导读：声学黑洞 (Acoustic Black Hole, ABH) 是对力学领域中天体物理学中的黑洞概念的一个声学类比。板上的 ABH 可以非常有效地减少高频振动。关键词：声学；黑瞳；曲波；力学；频率；低频；谐波器；谐振；振动；速度；多模态本文提出了一种由双层 ABH 板和局域谐振器组成的 MMABH 板，并对其进行了研究和分析。图 3. UNI、ABH、MMABH 和 D-MMABH 板的模态损耗因子接下来，作者对 MMABH 板在外力点激发后的响应进行了分析。总体而言，本研究设计的 D-MMABH 板具有优异的宽带阻尼效应和承载性能，展示出局域共振声学超材料的前景和潜力。
12910编辑于 2026-03-09
来自专栏腾讯多媒体实验室
DCASE 2020权威声学比赛：腾讯多媒体实验室斩获双项指标国内第一
腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别 (Acoustic Scene Classification,Task 1) 任务竞赛，并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出本次DCASE 2020比赛，共设置六个任务，包括声学场景识别、异常机器声音的非监督识别、声学事件检测、声学事件分离、城市声音标记和自动为音频生成标题纪要，吸引了包括亚马逊、英特尔、高通骁龙等国际公司和清华大学子任务task 1b的声学场景识别系统限制性的将模型大小压缩在500k以内，在此条件下，需要场景识别系统尽可能高效的识别“室内”、“室外”、“交通”这三种常见的声学大场景。图二本次声学场景识别任务，涵盖机场、室内购物、地铁站台、街道行人、公共广场等10个通用声学场景。在现实生活中，这些通用声学场景，通常同时存在多个声音，并且会被环境噪声干扰。现实生活中的声学场景识别应用实际上，DCASE2020的声学场景识别任务，与多媒体实验室自研的音视频实时通信产品——“腾讯会议”中的声学场景识别落地应用最为贴近。
1.9K2216发布于 2020-07-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

声学简介

声学特征提取and WORLD Using

·主流声学模型对比

浅析硬件“好声音”: 声学器件

解析声音“疗伤”的密码（音波声学）

基于Speex的声学回声消除

语音合成-声学概念和变声变调

声学工程师应知道的150个声学基础知识（全篇）

我们为什么选择“声学神经调控”这条路？

非线性声学回声消除技术

声学相机：用“眼睛”看见声音的奥秘

一文详解 DNN 在声学应用中的模型训练

语音情感分析技术解析：声学与词汇信息融合

利用声学密码分析攻击破译4096位RSA加密算法

语音识别与声纹识别 - 来自声学楼电声技术网络交流平台

你的声音作为一种“武器”：人类战争中声学活动

声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里

语音识别技术前沿：自监督学习与声学表征新突破

用于改善声学黑洞低频性能的多模态局域谐振器

DCASE 2020权威声学比赛：腾讯多媒体实验室斩获双项指标国内第一

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐