logo

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范

来源:淘丁集团

随着深度学习算法的发展,智能语音处理技术正在经历革命性的变化,算法、算力、数据成为驱动智能语音处理技术快速发展的三大因素。其中,语音数据资源是智能语音处理技术的基石,只有拥有大规模精准、高质量的语音数据集,智能语音处理技术才会有更好的发展。

近些年来,在人工智能发展的浪潮下,智能语音处理领域获得了突破性进展,尤其是在深度学习的不断渗入下,以端到端技术为代表的各种新算法不断出现并应用在实际业务系统中,极大地提升了智能语音处理技术的效果。

那我们来详细了解一下,语音数据标注都有哪些任务分类?以及语音数据标注基本标注规范都有哪些呢?

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图

01.语音数据标注分类

语音数据标注任务具有不同的形式,大致可从以下不同纬度考察它们的特点:

(1)按照智能应用场景,可划分为智能家居、智能会议、智能客服、智能车载等;

(2)按照语音信号处理研究方向,可划分为语音识别、语音合成、说话人识别、情感识别、语音分离等;

(3)按照音源与拾音器之间的距离,可划分为近场语音、远场语音;

(4)按照语音时长,可划分为短语音、长语音;

(5)按照难度等级,可划分为简单、中等、高难度;

(6)按照口音,可划分为普通话、方言、带地方口音的普通话等。

除此之外,小语种、外语相关的语音数据标注任务则需要有相应专业背景的专业人士来完成,这也加大了标注任务的难度。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图1

02.语音数据标注基本标注规范

一、 语音段落截取

对于多段落的长语音,比如演讲语音、会议记录等,标注人员需要从中截取出多个语音小段,对切开的每个语音小段,进行分开标注。在截取语音段时需注意以下事项:

①考虑语义连贯性,以说话人的一整句为单位进行截取。若一整句的时长超过8秒,也可以截取成分句。根据经验,每个语音小段平均在5-6秒左右;

②每个时间边界的最佳位置应在语音波形图的最低点;

③不同说话人的语音分开截取到不同的语音小段;

④截取的语音小段前后尽量保留0.2至0.3秒的静音段,若本身没有这么长时间的静音则不强求;

⑤尽可能截取没有突发噪音的语音段,可以为了避开突发噪音,而缩短语音前后的预留静音时间,但不能出现切音的情况;

⑥只有一个字表示应答的(如嗯、哦、对),不用单独分割成独立语音段;

⑦若说话人第一遍读错句子,停顿后又重复朗读一遍该句子,则只截取朗读正确的句子即可。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图2

二、 有效语音判定

在语音数据标注时,不合格的无效语音段必须加以说明和丢弃。判定一段语音为无效语音的情况有:

①该段语音是用规定之外的语言朗读的,比如规定是用印度英语朗读,而实际却是用中式英语朗读的;

②整段语音段没有说话人的语音,只含有噪声或者静音(可视为无声音);

③语音段中含有很强的背景噪音,以至于覆盖掉说话人的声音;

④说话人的声音极小而导致无法听清语音内容;

⑤说话人语速过快而导致发音不清楚或吞音;

⑥说话人发音时一字一顿,每个停顿时间超过1秒;

⑦说话人发音时语气夸张,故意怪里怪气地朗读;

⑧语音段存在切音、吞音、丢帧、喷麦、重音等异常;

⑨语音段存在影响语音清晰度的空旷音、混响等异常。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图3

三、 语音内容转写

语音数据标注的重中之重即语音内容的转写。语音内容转写的基本原则为“所听即所写”,即转写文本必须与说话人发音内容完全一致。具体规范包含以下几个方面:

①词汇:转写的词汇必须和听到的语音完全一致,不能多字、少字、错字;

②感叹词:在转写语音中出现的感叹词时应使用其标准拼写格式,如“呃、啊、嗯、哦、唉、呐”等,要按照正确发音进行转写;

③数字:所有数字应根据实际发音转写为文本,绝不能写成阿拉伯数字;

④英文:语音中的英文发音应转写成相应的汉字或英文,根据不同情况而定;

⑤标点符号:陈述句用“。”,疑问句用“?”,感叹句用“!”等;

⑥其他符号:如果存在除标点符号以外的其他符号,要根据发音转写成对应汉字或英文;

⑦噪音:有些情况下,除了需要转写语音内容之外,也需要标识语音段中含有的噪音情况,一般有分为四类(NSPT)。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图4

四、 说话人属性标注

对于语音合成、说话人识别等语音研究而言,说话人信息也是非常重要的特征,因此,有些语音数据还需要对说话人的信息加以标识,比如说话人的性别、年龄、口音等。若语音段含有多个说话人的声音,则需要分别标注所有说话人的以上属性,并标注说话人身份信息,如记为“speaker 1”、“speaker 2”等。

在当今互联网时代下,高质量的语音数据集对于语音产业的蓬勃发展起到关键作用,具有重大实用意义。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图5

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图6

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁语音标注 | 详解语音数据标注及语音数据标注基本规范插图7

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。

PHP网站源码潜江关键词按天收费公司永新seo网站优化公司山南如何制作网站多少钱怀化建站多少钱垦利SEO按天计费价格黔西南企业网站制作多少钱宁德建设网站哪家好雅安关键词排名报价邢台阿里店铺运营哪家好云浮网页设计多少钱梅州网络广告推广报价吕梁网站推广推荐海东百度爱采购报价喀什网站开发推荐湛江百度seo公司海南模板网站建设公司张北英文网站建设报价周口营销型网站建设报价临沂网站设计模板公司南阳网站开发报价凉山网络广告推广多少钱坂田英文网站建设价格泸州SEO按天收费价格咸宁seo优化价格玉溪网络营销推荐梧州企业网站设计多少钱遵义网站优化按天收费哪家好遵义百度竞价哪家好定西企业网站制作多少钱梧州百度网站优化推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化