昨天发了一遍关于语音数据标注工具Praat的基础使用，后台收到了很多小伙伴的留言，想了解一下更多的语音相关的知识，也想深入的学习一下，所以今天继续写一篇关于语音相关的基础知识，不管是数据标注还是刚了解语音相关AI技术的小伙伴都必须要知道的知识点。

一.几个重要的概念

1.采样

由于声音为为模拟连续信号，而计算机只能处理数字离散信号，因此要用计算机来分析和处理声音，就需要经历模数转换过程[Anlog to Digital Converter，即ADC]，即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来，其样本值用二进制码0和1来表示，这些0和1构成了数字音频文件，其过程实际上是将模拟音频信号转换成数字离散信号。

2.采样率

采样率表示了每秒对原始信号采样的次数。显然，在一秒中内采样的点越多，获取的信息越丰富，为了复原波形，一次振动中至少得有两个采样点，要想使采集到的信号不失真，采样频率规定至少为语音频率的2倍，因此要得到一个频率为10000赫兹的声音，则其采样率至少要大于20000赫兹的。采样率越高，数字信号的保真度越高，但同时占用的存储空间越大。如果采样率低于语音频率的两倍，则会产生低频失真、信号混淆现象。

3.采样精度

采样精度就是指存放一个采样值所使用的比特数目。当用8个比特（采样精度为8位）存放一个采样值时，对声音振幅的分辨等级理论上为256个，即0至255；当用16个比特（采样精度为16位）存放一个采样值时，对声音振幅的分辨等级理论上为65536个，即0到65536。如果您将采样精度设置为16位，计算机记录的采样值范围则为-32768到32767之间的整数。注意采样率和采样精度越大，记录的波形更接近原始信号，但同时占用的内存空间也越大。

4.声道

声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时，只要使用单声道就可以了。

5.信噪比

信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB，8位采样率的信噪比大约是48dB。在录音时，在录音时简单估计噪音大小的办法是：当没有语音信号输入的时候，如果麦克风输入的信号振幅值超过200（单位为采样值，相当于46dB），则噪声就比较大，需要进行一定控制，如在比较安静的环境下录音，关闭窗户、空调、电扇等噪声源，远离电脑等噪声源等等，选用比较好的带有屏蔽的麦克风，选用比较好的声卡等等。噪声的振幅值越低越好，录音室里的录音一般可以控制在10以下（单位为采样值，相当于20dB）

注：采样率和采样精度的设置以越高越好，采样率和采样精度越高则声音的质量越高，不过考虑到存储空间和语音信号的特点，一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源，则使用立体声，否则都使用单声道。

二.声学的几个基础概念

当物体振动时，会引起周围空气的波动，导致空气粒子间的距离发生疏密变化，从而引发空气压强的改变，在通过人的耳膜对空气压强的反映传入大脑，从而形成声音。物理上讲，声音具有4个基本特征：即音色、音强、音高和音长。

1.声波

声波是有物体振动产生的，物体振动使周围的介子（如空气）产生波动，这就是声波。声波的最简单形状是正弦波，由正弦波得到的声音交纯音。在日常生活中，人们听到的大部分都不是的纯音，而是复合音，这是由多个不同频率和振幅的正弦波叠加而成的。

2.声速

声波每秒在介子中传播的距离，叫做“声速”，用c表示，单位m/s。声速与传播声音的介子和温度有关。在常温常压的空气中，声速（c）和温度（t℃）的关系可简写为：c ≈ 331.4+0.607t(m/s)。常温常压下，声速为345m/s。

3.波长

沿着声波传播方向，声波震动一周所传播的距离，或在波形上相位相同的相邻的两点的距离，叫做“波长”，用λ表示，单位为m。波长与发生物体的震动频率成反比：频率越高，波长越短。日常所说的长波指频率低的声音，短波指频率高的声音。波长、声速和频率三着之间的关系λ=c/f。

4.振幅

振动物体离开平衡位置的最大距离，叫做振动的“振幅”，通常用符号A表示。简谐振动的振幅是不变的。强迫振动的稳定阶段振幅也是一个常数。阻尼振动的振幅逐渐减小，振幅是可变化的。振幅是用来表示振动强弱的物理量，振幅大，则振动强度大；振幅小，则振动强度小。

5.分贝

分贝是增益或衰减单位，用来描述两个相同物理量之间的相对关系。声信号和电信号的相对强弱，例如声压和电压、声功率和电功率放大（增益）和减小（衰减）的量都可用分贝数来表示。

计算公式如下：

LN = 10 * lg(A1 / Ar) 或 LN = 20 * lg(A1 / Ar)

公式中，其中Ar是基准量，Al是被测量，分贝符号为“dB”。被测量和基准量之比取以10为低的对数，这对数值称为被测量的“级”，它代表被测量比基准量高出多少“级”。根据公式可以得出，若被测量是基准量的10倍，则被测量比基准量高出1级，如被测量是基准量的100倍，则被测量比基准量高出2级，以此类推。每一级相差10或者20个dB。

分贝的计算很简单，对于振幅类物理量，如声压、电压、电流强度等，将被测量与基准量相比后求常用对数再乘以20；对于它们的平方项的物理量如电功率、声功率和声强，取对数后乘以10就行了。如果需要表示的量小于与相比的量时（即比值小于1时），则dB数前要加一个负号。

三.语音AI领域的主要方向

1.TTS（Text-to-Speech，语音合成），即“从文本到语音”，是人机对话的一部分，让机器能够说话。

2.ASR（Automatic Speech Recognition，语音识别），是将声音转换为文字。

以上两个概念呢，大家可以自行百度一下有非常详细的介绍，在这里就不复制粘贴啦。在TTS中最主要的一个指标就是自然度，也就是当你听见机器跟你说话的时候，你能不能区分出来这个不是人，目前在很多电话机器人上的使用很广泛，而且几乎已经判断不出来是机器人在对话（当然从其他方面还是很容易区分出来的）。而在ASR部分就比较难了，特别是在中文领域的应用，难上加难啊，必经中文还是博大精深的啊。当然应该也是发展非常有机会的一个方向，当然要结合NLP来进行应用才能发挥出真正的威力，否则还是基于简单规则的就没什么意思了。

本文着重介绍了一下语音相关最基础的知识点，我个人认为这是做语音数据标注或者语音采集的最基础的知识了，也是必须要掌握的，希望可以对大家在今后的工作学习当中能有好的帮助。

原文链接： https://blog.csdn.net/weixin_35426202/article/details/112525115