环境噪音消除 (ENC)-2 | 噪音类型和传统的语音增强方法

作者：爱集微 03-26 17:17

来源：CEVA IP #Ceva# #ENC#

3050

在前一部分中，我们讨论了在设计 ENC（环境噪音消除）系统时必须牢记的一些重要概念。现在，让我们来谈谈该内容的其余部分，即噪音本身。在这部分中，我们将描述常见噪音类型的特征，并探讨一些常用于解决此问题的传统语音增强方法。

研究人员通常根据不同的特征将噪音分为稳态噪音或非稳态噪音。了解这两种噪音类型之间的差异可以提供有关其属性和处理方式的宝贵见解。

稳态噪音是指随着时间推移，其统计特征保持相对恒定的噪音。换言之，其统计特征（如平均值、方差和自相关）在一段时间内保持不变或变化很小。稳态噪音的常见示例包括空调的嗡嗡声或冰箱的持续嗡嗡声。稳态噪音通常可以使用数学方法轻松地进行表征和分析，因此各种分析算法都可以对其进行预测和消除。

(a)

(b)

图 1：稳态噪音样本的声谱图。(a) 白噪音 (b) 冰箱的嗡嗡声

*声谱图是随时间变化的信号频谱的直观表示。横轴代表时间，纵轴代表频率，强度由颜色表示，颜色越亮，信号强度越高。

稳态噪音的一个著名示例是“白噪音”。这是一种随机噪音，包含强度相等的所有声谱频率。它之所以被称为“白”噪音，是因为它类似于白光，包含光的所有可见波长。白噪音通常被用作背景音来掩盖其他声音，帮助人们放松或改善睡眠。此外，它还在音频工程中使用，用来测试和校准设备。

稳态噪音的另一个示例是冰箱的嗡嗡声。尽管每个频率的强度不同，但我们仍然可以预测它在不久的将来会是什么样的。

另一方面，非稳态噪音是指随着时间推移，其统计特性发生显著变化的噪音。这意味着其统计特征可能会有很大的变化，甚至会突然变化，从而使分析变得更加复杂和更具挑战性。非稳态噪音可能来自各种来源，例如交通噪音、人群噪音或其他环境因素。与稳态噪音不同，非稳态噪音带来了独特的挑战，因为它需要先进的技术来捕捉其动态和时变特性。

图 2：两种不同交通噪音样本的声谱图

交通噪音是非稳态噪音的一个示例，这意味着其统计特性会随着时间的推移而发生显著变化。它是一种复杂的动态环境噪音，源自各种来源，包括自发的喇叭声、不同的发动机声和以不同速度驶过的各种车辆声。此外，路面类型、周围地形和天气条件都可能会导致一天中的强度和频率内容发生变化。因此，分析和消除交通噪音可能很困难，因为没有重复的模式来描述这类噪音的特征，因而难以预测和学习。

噪音的特征也可以通过其持续时间来描述。风声等轻微、持续的噪音会持续较长时间，而雷声、枪声、爆炸声、刮擦声和其他突发声音等脉冲噪音（有时称为瞬时噪音）会持续较短时间。这些脉冲噪音可能特别令人不安，因为它们可能会意外发生，并且持续时间不足以让自适应语音增强系统学习和消除它们。

噪音也可通过其在频谱内的能量分布来区分。例如，在风噪音中，大部分能量集中在较低的频率 (<500Hz) 中，而在鸟鸣声中，大部分能量在 ~3kHz-7kHz 之间。这种能量分布的差异可能会对不同声音的感知和分析产生重大影响。了解不同声音的能量分布有助于开发有效的降噪和过滤技术，从而提高音频信号的质量。

(a)

(b)

(c)

图 3：(a) 风噪音 (b) 枪声 (c) 鸟鸣声的声谱图

语音增强中一个特别具有挑战性的场景被称为“鸡尾酒会”问题。此问题是指在嘈杂的环境中，将目标语音信号从混杂的多个语音信号或其他干扰声音中分离出来并进行增强的难度，就像在拥挤的聚会中试图专注于单个对话一样。

图 4：“鸡尾酒会”问题示意图

在现实场景中，例如在鸡尾酒会、会议或拥挤的公共场所，可能会有多人在同时讲话，他们的语音特征各不相同且来源不明。这就产生了他们的声音混杂在一起的情况，此外还有也会受到室内声学影响的背景噪音。这就导致了一种具有挑战性的情况，即目标语音信号被干扰声音所掩盖，使人难以理解或提取所需的语音信号。

传统的信号处理方法

传统信号处理理论中提出了许多算法来处理环境噪音消除问题。这些算法通常可分为四个主要类别：

1. 频谱减法算法：这些算法在语音不存在的情况下估计/更新噪音频谱，并将其从噪音信号中减去。频谱减法算法基于噪音累加的原理，并且这种算法是实现起来最简单的增强算法。

2. 基于统计模型的算法：这些算法在统计估计框架中提出了语音增强问题。给定一组测量值（对应于噪音信号的傅立叶变换系数），它们的目标是找到干净信号的变换系数的线性（或非线性）估计量。维纳算法和最小均方误差 (MMSE) 算法是基于统计模型的算法的示例。

3. 子空间算法：这些算法主要基于线性代数理论，以及基于干净信号可能被限制在有噪音的欧几里得空间的子空间中的原理。子空间算法将噪音信号的向量空间分解成主要由干净信号占据的子空间和主要由噪音信号占据的子空间。通过消除“噪音子空间”中的噪音向量分量，可估计出干净信号。

4. 二进制掩码算法：与 1–3 类中的算法不同，二进制掩码算法使用二进制增益函数。这相当于从被破坏的语音频谱中选择频率区间（或通道）的子集，同时丢弃其余部分。这些区间的选择是根据规定的规则或标准进行的。二进制掩码算法已被证明在某些情况下可以提高语音清晰度。

图 5：使用传统算法对带有冰箱噪音（稳态）的语音进行降噪

传统的语音增强算法已经存在了数十年，并且已被证明可有效减少语音信号产生的稳态背景噪音。但是，在非稳态噪音环境中，它们的性能通常会下降，并且在计算上可能会变得复杂，从而导致输出语音信号出现显著延迟或失真。此外，这些算法可能需要对其参数进行微调，以在特定应用中获得令人满意的结果，并且它们可能无法在其他情况下很好地工作。因此，虽然这些传统算法在某些情况下仍然有用，但更新、更先进的技术（例如深度学习方法）已经出现，它们可以解决许多这些限制，并在更广泛的噪音条件下实现卓越的性能。

图 6：使用传统算法对带有交通噪音（非稳态）的语音进行降噪

在接下来的环境噪音消除三部曲的最后一章中，我们将深入探讨使用深度学习实现 ENC 的尖端技术。我们将探究这种方法是如何取得显著效果的，以及它为什么越来越受欢迎。此外，我们还将探索 Ceva-ClearVox ENC 对不同类型噪音的稳健性，并提供有关为您的环境和系统选择最佳语音增强方法的宝贵见解。所以，请不要错过 – 加入我们，进入这个精彩系列的最后一章吧！