声学模型(语音识别中的)--学习笔记

10 篇文章 3 订阅
订阅专栏
  1. 前置知识:
    1. 语音识别:
      1. 系统主要有四部分组成:信号处理和特征提取、声学模型、语言模型(Language Model, LM)和解码器(Decoder)。
      2. 信号处理和特征提取部分以音频信号为输入,通过消除噪音、信道失真等对语音进行增强,将语音信号从时域转化到频域,并为后面的声学模型提取合适的特征。
      3. 声学模型将声学和发音学的知识进行整合,以特征提取模块提取的特征为输入,生成声学模型得分。
      4. 语言模型估计通过重训练语料学习词之间的相互概率,来估计假设词序列的可能性,也即语言模型得分。
      5. 解码器对给定的特征向量序列和若干假设词序列计算声学模型得分和语言模型得分,将总体输出分数最高的词序列作为识别结果。
    2. 声学模型部分需要解决的问题:
      1. 特征向量序列的可变长:在学术上通常有动态时间规划(DTW)和隐马尔科夫(HMM)方法来解决。
      2. 音频信号的丰富变化性:是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。
      3. 声学模型需要足够的鲁棒性来处理以上的情况。
    3. 语音识别系统整体流程:

    4.  语音识别原理:
  2. 声学模型的任务就是描述语音的物理变化规律,而语言模型则表达了自然语言包含的语言学知识。
  3. 语音帧:
    1. 考虑到语音的短时平稳特性,语音信号在前端信号处理时要进行加窗分帧的操作,识别特征都按帧来提取。
    2. 语音帧的划分:注意是有重叠部分的

  4. 分帧后的语音信号逐帧提取语音特征用于声学模型建模。    
  5. 传统的特征类型包括mfcc和fbank等,提取好的特征送至解码器,在声学模型、语言模型以及发音词典的共同指导下,找到最为匹配的词序列作为识别结果输出
  6. 声学模型主要描述发音模型下特征的似然概率;语言模型主要描述词间的连接概率;发音词典主要是完成词和音之间的转换,其中声学模型建模单元一般选择三音素模型
  7. 声学建模演进总结:
    1. 深度神经网络超强的特征学习能力大大简化了特征抽取的过程,降低了建模对于专家经验的依赖,因此建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程,
    2. 由此带来的影响是建模单元逐步从状态、三音素模型向音节、字等较大单元演进
    3. 模型结构从经典的GMM-HMM向DNN+CTC(DNN泛指深度神经网络)转变,演进的中间态是DNN-HMM的混合模型结构。
  8. 传统的声学模型:GMM-HMM:
    1. 隐马尔可夫模型:
      1. 隐马尔可夫模型的参数通过Baum-Welch算法(在HMM上EM算法的推广)进行估计。(Baum-Welch算法:如果样本数据没有标签,则训练数据只包含观测序列O,但对应的状态I未知,则此时的隐马尔科夫模型是一个含有隐变量的概率模型)
      2. 隐马尔科夫模型主要有三部分组成:
        1. 每个状态的观察概率分布,采用GMM模型来描述状态的观察概率分布。
        2. 马尔可夫链的初始概率
        3. 转移概率矩阵:描述马尔可夫链状态间的跳转概率
        4. 隐马尔可夫模型能够描述语音信号中不平稳但有规律可学习的空间变量。具体的来说,隐马尔可夫模型具有顺序排列的马尔可夫状态,使得模型能够分段的处理短时平稳的语音特征,并以此来逼近全局非平稳的语音特征序列。
        5. 在马尔科夫链的基础上进行了扩展,用一个观测的概率分布于马尔可夫链上的每个状态进行对应,引入双重随机性,使得马尔可夫链不能被直接观察,故称为隐马尔可夫模型。
      3. HMM建模框架:

    2. GMM模型只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布。
    3. 补充EM算法:EM的基本思想是先将参数的初设估计值加入到似然函数中,然后对似然函数进行极大化(一般是求导,令其等于0),得到新的参数估计值,一直重复,直到收敛。
    4. 流程:
      1.  得到混合高斯模型的形式后,使用最大期望值算法EM估计GMM的一系列参数(可以使其在训练数据上生成语音观察特征的概率最大化)
      2. HMM模型对时序信息进行建模,在给定HMM的一个状态后,GMM对属于该状态的语音特征向量的概率分布进行建模。
  9. 加入深度学习模型:

    1. CD-DNN-HMM:

      1. DNN模型展现出了明显超越GMM模型的性能,替代了GMM进行HMM状态建模。

      2. 为了获得更好的性能提升,引入了上下文信息(也即前后特征帧信息),所以被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。

      3. DNN模型是有一个有很多隐层的多层感知机

      4. 在语音识别上应用的DNN模型一般采用softmax将模型输出向量进行归一化

      5. 相比于GMM模型,DNN模型具有一些明显的优势:

        1. DNN是一种判别模型,自身便带有区分性,可以更好区分标注类别;

        2. DNN在大数据上有非常优异的表现,伴随着数据量的不断增加,GMM模型在2000小时左右便会出现性能的饱和,而DNN模型在数据量增加到1万小时以上时还能有性能的提升;

        3. DNN模型有更强的对环境噪声的鲁棒性,通过加噪训练等方式,DNN模型在复杂环境下的识别性能甚至可以超过使用语音增强算法处理的GMM模型。

        4. DNN-HMM建模框架中,输入特征使用了在当前帧左右拼帧的方式来实现模型对时序信号长时相关性的建模,模型输出则保持了GMM-HMM经常使用的trihone共享状态(senone)

      6. DNN-HMM混合建模框架:

    2. 语音的协同发音现象说明声学模型需要考虑到语音帧之间的长时相关性,尽管上文中DNN-HMM通过拼帧的方式对上下文信息进行了建模,但是毕竟拼接的帧数有限,建模能力不强,因此引入了RNN(循环神经网络)增强了长时建模的能力,RNN隐层的输入除了接收前一个隐层的输出之外,还接收前一时刻的隐层输出作为当前输入,通过RNN的隐层的循环反馈,保留了长时的历史信息,大大增强了模型的记忆能力,语音的时序特性通过RNN也得到了很好的描述。但是RNN的简单结构在模型训练进行BPTT(Backpropagation Through Time)时很容易引起梯度消失/爆炸等问题,因此在RNN的基础上引入了LSTM(长短时记忆模型),LSTM是一种特殊的RNN,通过Cell以及三个门控神经元的特殊结构对长时信息进行建模,解决了RNN出现的梯度问题,实践也证明了LSTM的长时建模能力优于普通RNN。
    3. 上述的建模技术在模型训练时需要满足一个条件,就是训练数据中每一帧都要预先确定对应的标注,即对应DNN输出状态的序号,训练特征序列和标注特征序列必须是等长的,而为了得到标注,需要使用已有模型对训练数据序列和标注序列进行强制对齐,但是基于大数据训练时标注的准备比较耗费时间,同时对齐使用的模型精度往往存在偏差,训练中使用的标注会存在错误。
    4. 因此引入了CTC(Connectionist Temporal Classification)准则:解决了标注序列与特征序列不等长的问题,通过前向后向算法自动学习语音特征中的模型边界,这种准则与用于时序建模的神经网络(如LSTM)的结合可以直接用于端到端的模型建模CTC准则引入了blank类别,用于吸收发音单元内部的混淆性,更加突出模型与其他模型之间的差异性,因此CTC具有非常明显的尖峰效果
    5.  FFDNN建模流程:

  10. 高效地使用数据:数据筛选层面:使用无监督、弱监督、半监督的数据进行训练,同时更高效的挑选数据进行标注,知音引擎已经在使用主动学习的方法进行数据的筛选。
声学模型训练-LDA算法
quheDiegooo的专栏
04-25 3426
声学模型训练-LDA算法
《WeNet语音识别实战》答疑回顾(四)
weixin_48827824的博客
09-15 1897
我训练Aishell-1模型,训练到第10个左右的epoch,loss就会飞掉,可能是什么原因呀?
语音识别声学模型解析
11-20
语音识别过程声学模型的构建发展过程,从最初的数字模型到后来的神经网络模型,最新的各种深读学习模型的解析。
INTERSPEECH 2017系列 | 语音识别技术之声学模型
weixin_34259159的博客
12-02 873
编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语...
语音识别声学模型解码
Xwei1226的博客
05-19 1379
声学模型解码(带状态转移概率) 最近一直在学习哥伦比亚大学与爱丁堡大学语音识别课程,并且修正了哥伦比亚大学基于HMM构建的语音识别系统存在问题终自己写了一套基于HMM的语音识别系统,前文一些博客简单对上述工程实现以及理论进行了介绍,但是前文进行Viterbi解码时并未融入状态转移概率,虽然转移概率相较于发射概率对于解码结果影响较小,虽然影响较小,但是笔者认为一个优秀...
语音识别声学模型知识(个人整理)
pk296256948的博客
12-04 4714
语音识别声学模型知识(个人整理) 声学模型 声学模型使用高斯混合-隐马尔科夫模型(GMM-HMM),训练该模型的准则有: ①早期的最大似然准则(ML) ②期的序列判别训练法(sequence hierarchical model) ③目前广泛使用的基于深度学习的方法。 未完待续 ...
autokeras学习笔记-安装篇
最新发布
06-07
autokeras学习笔记-安装篇
go学习笔记-文档-文档
07-21
go学习笔记-文档
笔记-webpack5学习指南-V1.0
08-29
笔记-webpack5学习指南-V1.0
JSP学习笔记-2.pdf
11-28
JSP学习笔记-2.pdf
Python-基于卷积神经网络的语音识别声学模型的研究
08-11
基于卷积神经网络的语音识别声学模型的研究
android学习笔记-clip.pdf
11-15
android学习笔记-clip.pdf
语音技术识别原理
m0_59044499的博客
01-31 8616
语音识别技术原理
语音识别声学模型训练(Viterbi-EM)
Xwei1226的博客
05-12 3755
Viterbi-EM语音识别训练方法 前文刚研究过语音识别特征提取以及基于Viterbi的状态解码方法,现着手研究基于GMM-HMM的语音语音识别声学模型训练方法,其理论部分可参考本人前期所写的GMM-HMM理论推导拖成,但上述推导过程是采用前后向算法更新模型参数,本人则主要采用Viterbi-EM训练方法对GMM参数进行更新训练。 实际上该训练方法主要是针...
AI-语音处理理论和应用-DNN-HMM、CD-DNN-HMM
weixin_46414576的博客
05-20 721
学习目标    • 了解语音处理的基础知识及应用    • 掌握语音处理的基本步骤    • 掌握语音处理的主要技术    • 了解语音处理的难点与展望 DNN-HMM    深度神经网络 - 隐马尔科夫模型       • 深度神经网络-隐马尔科夫模型(DNN-HMM)利用DNN的强大的特征学习能力
深度学习语音识别声学模型以及语言模型的应用
weixin_33971205的博客
08-03 1153
过去 3 年,深度学习在各个领域取得较大突破,比如计算机视觉领域的物体识别、场景分类,语音分析等,并且其技术推广和应用的速度超过人们预期,比如 Google 的广告系统已经开始使用深度学习盈利,Twitter 也通过深度学习改善App 图片及视频内容服务体验。那具体何为深度学习呢?深度学习是怎么应用在上述的各个领域呢,下面结合自身在语音...
声学模型算法总结 2016 年语音识别的重大进步
热门推荐
charleslei的专栏
02-27 2万+
声学模型算法总结 2016 年语音识别的重大进步
语音识别:CD-DNN-HMM训练过程
qq_14962179的博客
01-02 3657
![HMM对语音信号的序列特性进行建模,DNN对所有聚类后的状态(聚类后的三因素状态)的似然度进行建模。对时间上的不同点采用同样的DNN](https://img-blog.csdnimg.cn/20190102103043366.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly...
深度学习语音识别—常用声学模型简介
dujiajiyi_xue5211314的博客
12-30 2万+
2006年,Hinton提出深度学习网络,指出深度神经网络因为层数过多导致训练参数多的问题可以利用逐层初始化解决。在工业界和学术界掀起了深度学习的浪潮,并在语音识别和图像处理领域取得了巨大成功。2011年微软和谷歌在语音识别上采用DNN模型,将词错误率降低20%-30%。这里的DNN主要采用的是DBN,即深度置信网络。随着语音识别以及深度学习的发展,研究人员发现将CNN和RNN模型应用于语音识别
端到端视听语音识别框架
09-22
端到端视听语音识别框架是一种将语音信号直接转换为文本的系统。它主要由两个部分组成:声学模型和语言模型声学模型负责将语音信号映射到音素或字词,而语言模型则根据文本的上下文来预测下一个可能的词或音素。这种框架的优势在于它不需要手动设计特征提取和对齐模型,使得训练和部署更加简单和高效。 在端到端视听语音识别框架,常用的模型包括DeepSpeech、Wenet和ESPnet等。这些模型采用了不同的架构和技术来实现语音识别。例如,DeepSpeech使用了卷积神经网络(CNN)和循环神经网络(RNN)结构,Wenet使用了多任务学习和序列到序列模型,而ESPnet则结合了CNN和Transformer模型。 这些框架的训练数据通常来自于大规模的语音数据集,如LibriSpeech和AIShell-1等。训练过程,需要进行声学特征提取、数据预处理、模型训练和优化等步骤。而在部署阶段,可以通过调用训练好的模型对实时语音进行识别。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 不用下载视频软件即可倍速播放本地视频的方法 20444
  • OSError: [WinError 1455] 页面文件太小,无法完成操作。 Error loading “C:\ProgramData\Anaconda3\lib\site-packages\to 20376
  • import cv2 19134
  • 使用hugging face提供的预训练模型,报错:ImportError: cannot import name ‘DatasetInfo‘ from ‘huggingface_hub.hf_api 17230
  • python 文件运行报错:ImportError: cannot import name ‘xxx‘ from partially initialized module ‘xxxx‘ 16320

分类专栏

  • deeplearning 99篇
  • TensorFlow 6篇
  • cv 34篇
  • pytorch 19篇
  • speech 23篇
  • NLP 6篇
  • 经验 24篇
  • dataset 10篇
  • DSP 3篇
  • 算法 12篇
  • ASR 10篇
  • math 3篇
  • 前后端 14篇
  • linux 15篇
  • 网络 1篇
  • kaldi 3篇
  • docker 7篇
  • 3D 1篇
  • java 7篇
  • python 22篇
  • bug记录 6篇
  • RL 1篇
  • git 4篇
  • UI 1篇
  • 安装 3篇
  • c++ 1篇
  • 小程序 2篇

最新评论

  • anaconda打开闪退解决

    2201_75886278: 使用管理员权限打开的prompt还是闪退呀

  • 关于VCTK数据集

    折木泽: 好奇怪,为什么下下来的只有txt和wav两种类型的,不应该还有json的吗

  • 记录一次pytorch训练模型遇到的报错

    Kirito645: 最后一个怎么转置啊

  • 神经网络中的线性和非线性---学习笔记

    大危161: 没有激活函数的话,只要只有一个输出,多层堆叠依然只有一条直线来分隔

  • import tensorflow.compat.v1 as tf 解析不了(警告)

    一只猿色: 感谢,太有用

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 参考mfa官方文档实践笔记(亲测)
  • 语音领域评估指标学习笔记
  • superb(一个语音领域的评测平台)评测任务学习笔记
2023年14篇
2022年322篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码同乐品牌网站设计松岗网站优化排名西乡建站塘坑网页制作丹竹头百度爱采购龙岗网站设计大鹏百度爱采购广州seo网站推广西乡建设网站同乐网站建设吉祥seo网站推广南澳SEO按天收费南澳百姓网标王东莞设计网站沙井优化坑梓seo网站推广塘坑SEO按天收费松岗营销网站大鹏网站制作设计沙井模板制作大芬百姓网标王推广福田网站推广系统罗湖如何制作网站龙岗网站优化按天扣费大运网站开发广州网页设计福永优化大运网站设计模板坑梓外贸网站设计福永如何制作网站歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化