Skip to content

asr标注工具_语音标注必须了解的基础知识点

4dae0c04901576cc77886b52f6ba6659.png

昨天发了一遍关于语音数据标注工具Praat的基础使用,后台收到了很多小伙伴的留言,想了解一下更多的语音相关的知识,也想深入的学习一下,所以今天继续写一篇关于语音相关的基础知识,不管是数据标注还是刚了解语音相关AI技术的小伙伴都必须要知道的知识点。

一.几个重要的概念

1.采样

由于声音为为模拟连续信号,而计算机只能处理数字离散信号,因此要用计算机来分析和处理声音,就需要经历模数转换过程[Anlog to Digital Converter,即ADC],即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来,其样本值用二进制码0和1来表示,这些0和1构成了数字音频文件,其过程实际上是将模拟音频信号转换成数字离散信号。

2.采样率

采样率表示了每秒对原始信号采样的次数。显然,在一秒中内采样的点越多,获取的信息越丰富,为了复原波形,一次振动中至少得有两个采样点,要想使采集到的信号不失真,采样频率规定至少为语音频率的2倍,因此要 得到一个频率为10000赫兹的声音,则其采样率至少要大于20000赫兹的。采样率越高,数字信号的保真度越高,但同时占用的存储空间越大。如果采样率低于语音频率的两倍,则会产生低频失真、信号混淆现象。

3.采样精度

采样精度就是指存放一个采样值所使用的比特数目。当用8个比特(采样精度为8位)存放一个采样值时,对声音振幅的分辨等级理论上为256个,即0至255;当用16个比特(采样精度为16位)存放一个采样值时,对声音振幅的分辨等级理论上为65536个,即0到65536。如果您将采样精度设置为16位,计算机记录的采样值范围则为-32768到32767之间的整数。注意采样率和采样精度越大,记录的波形更接近原始信号,但同时占用的内存空间也越大。

4.声道

声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时,只要使用单声道就可以了。

5.信噪比

信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB,8位采样率的信噪比大约是48dB。在录音时,在录音时简单估计噪音大小的办法是:当没有语音信号输入的时候,如果麦克风输入的信号振幅值超过200(单位为采样值,相当于46dB),则噪声就比较大,需要进行一定控制,如在比较安静的环境下录音,关闭窗户、空调、电扇等噪声源,远离电脑等噪声源等等,选用比较好的带有屏蔽的麦克风,选用比较好的声卡等等。噪声的振幅值越低越好,录音室里的录音一般可以控制在10以下(单位为采样值,相当于20dB)

注:采样率和采样精度的设置以越高越好,采样率和采样精度越高则声音的质量越高,不过考虑到存储空间和语音信号的特点,一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源,则使用立体声,否则都使用单声道。

二.声学的几个基础概念

当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密变化,从而引发空气压强的改变,在通过人的耳膜对空气压强的反映传入大脑,从而形成声音。物理上讲,声音具有4个基本特征:即音色、音强、音高和音长。

1.声波

声波是有物体振动产生的,物体振动使周围的介子(如空气)产生波动,这就是声波。声波的最简单形状是正弦波,由正弦波得到的声音交纯音。在日常生活中,人们听到的大部分都不是的纯音,而是复合音,这是由多个不同频率和振幅的正弦波叠加而成的。

2.声速

声波每秒在介子中传播的距离,叫做“声速”,用c表示,单位m/s。声速与传播声音的介子和温度有关。在常温常压的空气中,声速(c)和温度(t℃)的关系可简写为:c ≈ 331.4+0.607t(m/s)。常温常压下,声速为345m/s。

3.波长

沿着声波传播方向,声波震动一周所传播的距离,或在波形上相位相同的相邻的两点的距离,叫做“波长”,用λ表示,单位为m。波长与发生物体的震动频率成反比:频率越高,波长越短。日常所说的长波指频率低的声音,短波指频率高的声音。波长、声速和频率三着之间的关系λ=c/f。

4.振幅

振动物体离开平衡位置的最大距离,叫做振动的“振幅”,通常用符号A表示。简谐振动的振幅是不变的。强迫振动的稳定阶段振幅也是一个常数。阻尼振动的振幅逐渐减小,振幅是可变化的。振幅是用来表示振动强弱的物理量,振幅大,则振动强度大;振幅小,则振动强度小。

5.分贝

分贝是增益或衰减单位,用来描述两个相同物理量之间的相对关系。声信号和电信号的相对强弱,例如声压和电压、声功率和电功率放大(增益)和减小(衰减)的量都可用分贝数来表示。

计算公式如下:

LN = 10 * lg(A1 / Ar) 或 LN = 20 * lg(A1 / Ar)

公式中,其中Ar是基准量,Al是被测量,分贝符号为“dB”。被测量和基准量之比取以10为低的对数,这对数值称为被测量的“级”,它代表被测量比基准量高出多少“级”。根据公式可以得出,若被测量是基准量的10倍,则被测量比基准量高出1级,如被测量是基准量的100倍,则被测量比基准量高出2级,以此类推。每一级相差10或者20个dB。

分贝的计算很简单,对于振幅类物理量,如声压、电压、电流强度等,将被测量与基准量相比后求常用对数再乘以20;对于它们的平方项的物理量如电功率、声功率和声强,取对数后乘以10就行了。如果需要表示的量小于与相比的量时(即比值小于1时),则dB数前要加一个负号。

三.语音AI领域的主要方向

1.TTS(Text-to-Speech,语音合成),即“从文本到语音”,是人机对话的一部分,让机器能够说话。

2.ASR(Automatic Speech Recognition,语音识别),是将声音转换为文字。

以上两个概念呢,大家可以自行百度一下有非常详细的介绍,在这里就不复制粘贴啦。在TTS中最主要的一个指标就是自然度,也就是当你听见机器跟你说话的时候,你能不能区分出来这个不是人,目前在很多电话机器人上的使用很广泛,而且几乎已经判断不出来是机器人在对话(当然从其他方面还是很容易区分出来的)。而在ASR部分就比较难了,特别是在中文领域的应用,难上加难啊,必经中文还是博大精深的啊。当然应该也是发展非常有机会的一个方向,当然要结合NLP来进行应用才能发挥出真正的威力,否则还是基于简单规则的就没什么意思了。

本文着重介绍了一下语音相关最基础的知识点,我个人认为这是做语音数据标注或者语音采集的最基础的知识了,也是必须要掌握的,希望可以对大家在今后的工作学习当中能有好的帮助。

ba4eba33b772b201c298ed5ade05ee4e.png

版权声明:本文为weixin_35426202原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。

PHP网站源码阳泉设计公司网站内江设计公司网站邯郸营销型网站建设报价珠海网站推广工具公司坑梓设计网站哪家好襄阳阿里店铺运营报价双龙品牌网站设计推荐吉林网站推广方案价格罗湖外贸网站设计推荐南澳百度爱采购公司桂林关键词排名报价内江营销型网站建设推荐雅安网站优化承德模板推广推荐济宁百姓网标王推广推荐百色seo网站优化报价柳州建设网站公司铜川建站哪家好铁岭网站seo优化多少钱玉林建设网站报价福永网站优化软件推荐焦作网站建设哪家好醴陵网络营销价格运城网站优化推广报价百色如何制作网站推荐临沧网站设计报价本溪SEO按天收费宝鸡营销型网站建设哪家好和田阿里店铺运营报价木棉湾推广网站报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化