一种基于三维残差神经网络和视频序列的动态手语识别方法与流程

文档序号:18398313发布日期:2019-08-09 23:37阅读:967来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于三维残差神经网络和视频序列的动态手语识别方法与流程

本发明涉及手语识别技术领域,具体为一种基于三维残差神经网络和视频序列的动态手语识别方法。



背景技术:

手语识别是聋哑人与非聋哑人交流的一种有效技术,随着人机交互研究的不断深入,手语识别已成为一个热门话题。近年来,手语自动识别系统通过将手势转换为文本或语音,为人机交互创造了一种新的方式,这种技术可以通过计算机辅助技术来实现。目前,在这方面已经有许多成功的应用,如分配语言翻译、手语导师和特殊教育,这些都可以帮助聋哑人与他人进行流利的交流。另一方面,手语普遍是由一系列动作构成的,是一种具有相似特征的快速运动。因此,静态手语识别技术很难解决手语动作的复杂性和变化性问题。因此,研究动态手语识别技术是解决此类问题的有效方法。基于视觉的动态手势识别技术具有灵活性、可扩展性和低成本等特点,是当前手势交互技术研究的热点。然而,动态手语识别技术在解决身体背景下手指运动的复杂性问题方面也面临着挑战。另一个困难是如何从图像或视频序列中提取最有效的特征。此外,如何选择合适的分类器也是获得准确识别结果的关键因素。

为了帮助聋哑人在日常生活中进行正常的交流,越来越多的研究者致力于改善上述问题,在动态手语识别方面已经取得了许多成果。解决动态手语识别问题的方法主要有两种:一种是基于手势形状和运动轨迹的识别方法,另一种是基于手语视频序列的识别方法。

在传统的动态手语识别中,主要利用手势的形状特征和运动轨迹特征来识别手势。但是这些特征不能完全满足实际动态手语识别的要求。随着深度学习理论的迅速发展,数据驱动方法在目标检测和手势识别方面表现出了突出的优异性。与基于手势形状和运动轨迹的手语识别方法不同,基于视频序列的手语识别能够充分利用时间信息,与整个场景相比,手的尺寸相对较小,因此手语动作的有效空间特征会被不相干信息所覆盖。因此,同时学习手语动作的时空特征将会是动态手语识别的一种有效方法。



技术实现要素:

本发明的目的在于提供一种基于三维残差神经网络和视频序列的动态手语识别方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于三维残差神经网络和视频序列的动态手语识别方法,所述方法提出了基于三维残差神经网络的新模型b3dresnet,包括以下步骤:

步骤1,在视频帧中,采用fasterr-cnn模型检测手的位置,并从背景中分割出手;

步骤2,利用b3dresnet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;

步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。

进一步的,所述采用fasterr-cnn模型检测手的位置的步骤如下:

(1)当图像序列输入卷积神经网络时,将会生成特征图,区域提议网络在以核大小为n×n的网络窗口在特征图上滑动;

(2)区域生成网络推荐候选区域,输出多个符合条件的候选区域;

(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域,然后输出固定长度的候选区域;

(4)对每个感兴趣区域进行分类和边界框回归,输出候选区域所属的类,和候选区域在图像中的精确位置。

进一步的,所述b3dresnet模型主要包括17个卷积层,2个双向lstm层,1个全连接层;在输入层中,有八个大小为112×112的图像帧,以当前帧为中心,并通过三个具有三维通道输入l×h×w,其中l,h和w是时间长度,高度和宽度;然后,分别在三个通道运用三维卷积,其内核大小为7×7×3,其中7×7在空间维度中,在时间维度上为3;核大小为2×2×1的下采样作用于卷积层中的每个特征图,来降低特征图维数;通过在三个通道上应用具有内核大小3×3×3的3d卷积来获得下一个卷积层c2_x,下一层c3_x,c4_x和c5_x具有相同的操作;之后,在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本;然后特征向量被送到在两个方向上运行的长短期记忆网络;将每个方向长短期记忆网络的隐藏状态层,完全连接层和软最大层组合以获得对应于每个动作的中间分数;最后,将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。

进一步的,所述b3dresnet模型对输入的视频序列进行手势的时空特征提取包括:首先提取输入视频序列的特征向量,通过构建三维卷积,卷积层中的特征映射连接到前一层中的多个连续帧,然后捕获运动信息;三维卷积网络层的设计原理是利用三维卷积核进行的,它可以从帧立方体中提取一种类型的特征;在任何单个网络层的每个要素中,任意位置处的特征向量值由以下公式给出:

其中,tanh()是双曲正切函数,参数t和x是当前层的连接参数,h、w和d是三维卷积内核的高度,宽度和时间维度,z是特征层的偏差值。

本发明利用输入的加性残差函数,通过快捷连接,学习时空特征;为了将二维残差单元用于编码时空视频信息的三维体系结构,基本的残余单元按照三维卷积网络层的设计原理进行修改,三维卷积分别在三个通道中的每一个通道具有卷积核大小为3×3×3的相同核尺寸,b3dresnet模型可以通过将残差连接应用于三维卷积网络,并且自动地从输入视频序列中提取时空特征。

进一步的,所述b3dresnet模型对输入的视频序列进行手势的特征序列分析包括:利用双向长短期记忆单元,其包含六个共享权重并整合来自未来和过去的信息,以对视频序列中的每个块进行预测;在双向长短期记忆单元中,前向传播层和后向传播层连接到输出层;从概念上讲,存储器单元存储过去的上下文,输入门和输出门单元允许长时间存储上下文;同时,可以通过遗忘门清除单元中的存储器;从形式上讲,包括输入序列x={x1,x2,...,xt},单元状态c={c1,c2,...,ct}和隐藏状态h={h1,h2,...,ht},it,ft,ot,ct,gt,ht分别是输入门,遗忘门,输出门,存储器单元激活矢量,状态函数,隐藏函数;双向长短期记忆单元的方程如下:

it=σ(wxixt+whiht-1+bi)(2)

ft=σ(wxfxt+whfht-1+bf)(3)

ot=σ(wxoxt+whoht-1+bo)(4)

gt=tanh(wxcxt+whcht-1+bx)(5)

ct=ftct-1+itgt(6)

ht=ottanh(ct)(7)

其中tanh()是双曲正切函数,遗忘门决定何时应从存储器单元清除信息,输入门决定何时应将新的形成结合到存储器中,该层生成一组候选值,如果输入门允许,它们将被添加到存储器单元中;参考公式(6),基于遗忘门,输入门和新候选值的输出,更新存储器单元;在公式(7)中,输出门控制隐藏状态和存储信息;最后,隐藏状态表示为存储器单元状态的函数和输出门之间的乘积。

与现有技术相比,本发明的有益效果是:

本发明提出了一种用于动态手语识别的新模型b3dresnet。该模型通过分析视频序列的时空特征,可以提取有效的动态手势时空特征序列,从而达到识别不同手势的目的,并且在复杂或类似的手语识别上也获得了良好的性能。通过测试数据集devisign-d和slr_dataset的实验结果表明,本发明可以准确有效地区分不同的手语,以及相似的手势对。此外,本发明充分利用了动态手语的时空特征,提高了动态手语识别的准确性和整体性能。

附图说明

图1为本发明结构框架图;

图2为本发明b3dresnet模型结构图;

图3为本发明三维残差结构单元图;

图4为本发明双向长短期记忆网络结构单元图;

图5为本发明与其他方法的对比结果图;

图6为本发明手部定位和分割结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。

本发明提供一种技术方案:一种基于三维残差神经网络和视频序列的动态手语识别方法,其结构框架如图1所示。所述方法提出了基于三维残差神经网络的新模型b3dresnet,包括以下步骤:

步骤1,在视频帧中,采用fasterr-cnn模型检测手的位置,并从背景中分割出手。

步骤2,利用b3dresnet模型对输入的视频序列进行手势的时空特征提取和特征序列分析。

步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。

手部位置的检测对于时间分割和随后的识别模块是至关重要的步骤。为了获得图像中手部位置的准确信息,选择性能优良的目标检测算法至关重要。与ssd,yolo和其他方法相比,fasterr-cnn具有更高的精度和更强的鲁棒性,适用于较小物体的检测。

如图1的目标定位模块所示,采用fasterr-cnn模型检测手的位置的步骤如下:

(1)当图像序列输入卷积神经网络时,将会生成特征图,区域提议网络在以核大小为n×n的网络窗口在特征图上滑动。

(2)区域生成网络推荐候选区域,输出多个符合条件的候选区域。

(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域,然后输出固定长度的候选区域。

(4)对每个感兴趣区域进行分类和边界框回归,输出候选区域所属的类,和候选区域在图像中的精确位置。

表1检测结果

如表1所示,fasterr-cnn模型对于目标具有高检测精度。此结果反映在以下参数中:因此,使用fasterr-cnn模型来检测手部,可以获得位置的精确信息。

本发明提出了b3dresnet模型,用于识别基于视频序列的动态手语。具体而言,该模型可以完成视频序列特征提取并学习长期时空特征。对于动态手语识别,不同的动态手语手势通常对应于具有不同标签的视频。因此,可以通过对标签进行分类来识别手势。通过提取视频的时空特征,对特征向量进行分类,可以很好地实现各种动态手语的识别。为了提高动态手语的识别精度,通过双向长短期记忆单元进一步分析特征序列。b3dresnet模型介绍如下。

图2显示了b3dresnet模型的详细结构,主要包括17个卷积层,2个双向lstm层,1个全连接层;在输入层中,有八个大小为112×112的图像帧,以当前帧为中心,并通过三个具有三维通道输入l×h×w,其中l,h和w是时间长度,高度和宽度;然后,分别在三个通道运用三维卷积,其内核大小为7×7×3,其中7×7在空间维度中,在时间维度上为3;核大小为2×2×1的下采样作用于卷积层中的每个特征图,来降低特征图维数;通过在三个通道上应用具有内核大小3×3×3的3d卷积来获得下一个卷积层c2_x,下一层c3_x,c4_x和c5_x具有相同的操作;之后,在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本;然后特征向量被送到在两个方向上运行的长短期记忆网络;将每个方向长短期记忆网络的隐藏状态层,完全连接层和软最大层组合以获得对应于每个动作的中间分数;最后,将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。

b3dresnet模型对输入的视频序列进行手势的时空特征提取包括:b3dresnet模型首先提取输入视频序列的特征向量。针对图像序列的识别问题,一般借助三维卷积从视频序列中捕获空间和时间维度信息。通过构建三维卷积,卷积层中的特征映射连接到前一层中的多个连续帧,然后捕获运动信息;三维卷积网络层的设计原理是利用三维卷积核进行的,它可以从帧立方体中提取一种类型的特征;在任何单个网络层的每个要素中,任意位置处的特征向量值由以下公式给出:

其中,tanh()是双曲正切函数,参数t和x是当前层的连接参数,h、w和d是三维卷积内核的高度,宽度和时间维度,z是特征层的偏差值。

然而,三维卷积网络层数越多,其学习能力会更强。此外,向三维卷积网络添加残余连接司以简化更深层网络的训练。本发明不是直接学习未引用的非线性函数,而是利用输入的加性残差函数,通过快捷连接,有助于学习时空特征。这种三维残差结构如图3所示。为了将二维残差单元用于编码时空视频信息的三维体系结构,基本的残余单元按照三维卷积网络层的设计原理进行修改,三维卷积分别在三个通道中的每一个通道具有卷积核大小为3×3×3的相同核尺寸,b3dresnet模型可以通过将残差连接应用于三维卷积网络,并且自动地从输入视频序列中提取时空特征。

b3dresnet模型对输入的视频序列进行手势的特征序列分析包括:b3dresnet模型利用双向长短期记忆单元,其包含六个共享权重并整合来自未来和过去的信息,以对视频序列中的每个块进行预测,其结构如图4所示。在双向长短期记忆单元中,前向传播层和后向传播层连接到输出层;从概念上讲,存储器单元存储过去的上下文,输入门和输出门单元允许长时间存储上下文;同时,可以通过遗忘门清除单元中的存储器;从形式上讲,包括输入序列x={x1,x2,...,xt},单元状态c={c1,c2,...,ct}和隐藏状态h={h1,h2,...,ht},it,ft,ot,ct,gt,ht分别是输入门,遗忘门,输出门,存储器单元激活矢量,状态函数,隐藏函数;双向长短期记忆单元的方程如下:

it=σ(wxixt+whiht-1+bi)(2)

ft=σ(wxfxt+whfht-1+bf)(3)

ot=σ(wxoxt+whoht-1+bo)(4)

gt=tanh(wxcxt+whcht-1+bc)(5)

ct=ftct-1+itgt(6)

ht=ottanh(ct)(7)

其中tanh()是双曲正切函数,遗忘门决定何时应从存储器单元清除信息,输入门决定何时应将新的形成结合到存储器中,该层生成一组候选值,如果输入门允许,它们将被添加到存储器单元中;参考公式(6),基于遗忘门,输入门和新候选值的输出,更新存储器单元:在公式(7)中,输出门控制隐藏状态和存储信息:最后,隐藏状态表示为存储器单元状态的函数和输出门之间的乘积。

从以上公式表达上可以发现,b3dresnet模型可以获得输入视频的全部功能。对于动态手语识别,b3dresnet模型具有捕获序列内的上下文信息的强大能力。

本发明在测试数据集上进行,包括devisign-d数据集和slr_dataset数据集。

devisign-d数据集是一个中文手语数据集,为全球手语识别社区的研究人员提供了一个大词汇量的中文手语数据集,用于训练和评估他们的算法。它由500个日常词汇组成。数据涵盖8个不同的手语者。其中,对于4名手语者(2名男性和2名女性),其他4名手语者(2名男性和2名女性)共录制两次词汇表。它完全包括6000个视频。

slr_dataset由huang等人收集并在他们的项目网页上发布。微软kinect摄像头用于录制视频,并提供rgb,深度和身体关节信息。在本发明中,仅使用rgb视频信息。slr_dataset包含2.5万个已标记的视频实例,由50名手语人员录制,每个视频实例都由专业的中文手语老师注释。

b3dresnet模型是基于深度学习平台caffe上实现的,实验过程中使用的gpu是quadrop4000。训练模型时,批量大小设置为2,基础学习率设置为0.1,momentum参数设置为0.9。由于数据集的大小限制,我们采取以下有效策略来避免过度拟合问题:一种是众所周知的方法-数据增强,图像序列被随机裁剪。另一种方式是批量标准化,旨在减少内部协变量偏移,并应用于所有卷积层,加速深度神经网络的训练过程。

实验参数设置后,b3dresnet模型进行动态手语识别训练,主要从输入视频中提取时空特征,分析长期时间动态特征,预测手势序列的标签。为了评估b3dresnet模型在动态手语识别中的性能,采用识别准确度作为标准。我们将提出的方法b3dresnet模型与一些传统的序列动作识别模型进行了比较,例如基于devisign-d数据集的res3d,2d-resnet和alexnet。动态手语识别结果的比较如图5所示。当训练这些模型直到大约20k迭代次数时,识别准确率开始达到最大值。结果表明,res3d,2d-resnet和alexnet的准确度分别为86.6%,85%和73.8%,而我们的方法准确率为89.9%,优于其他方法至少3.3%。因此,实验表明b3dresnet模型具有最佳的动态手语性能。

对于基于视频序列的动态哑语手势识别,关键部位是识别手部区域的动作,然而手部区域所占空间相较于整个图像而言,比例非常少,因此大量的背景区域就显得冗余。本发明通过检测手部区域,再将手部从背景中分割出来,可以减少b3dresnet模型的计算量,从而提高识别准确率。实验结果如图6所示。为了验证这种方法,在devisign-d数据集和slr_dataset上使用两种不同的训练方式来评估该预处理过程:

方式1:对图像序列先检测并分割手部区域;

方式2:不做任何处理,直接训练。

表2预处理对比结果

实验结果如表2所示,通过预处理,在数据集devisign-d和slr_dataset进行验证,发现我们的方法是实际有效的,其识别准确率提高了46.1%和36.7%。

表3在数据集devisign-dandslr_dataset上进行对比

b3dresnet模型在数据集devisign-d和slr_dataset上的训练结果如表3所示。数据结果显示,b3dresnet模型取得了最高的识别准确率。从表3数据可以看出,由于不同数据集的复杂性不同,slr_dataset数据集更有挑战性。具体地,在devisign-d数据集和slr_dataset中,本发明结果分别为89.8%和86.9%,分别比blstm-nn高29.5%和30.3%,比hmm-dtc高25.4%和21.7%,比dnn高出19%和21.1%,比c3d高出11.5%和13.4%。比较结果表明,本发明在两个测试数据集上均获得了动态手语的最新识别精度。

以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 基于多时空注意力模型的视频行...
  • 眼部OCT图像病灶识别方法、...
  • 一种基于多尺度特征融合的遥感...
  • 一种基于视觉特征与时空约束的...
  • 活体检测方法、装置及活体检测...
  • 高光谱图像特征提取、分类模型...
  • 一种基于卫星遥感影像的农田画...
  • 一种产品分布识别方法和装置与...
  • 基于自学习的人脸考勤方法、装...
  • 业务处理方法、模型训练方法、...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
残差神经网络相关技术
  • 使用预测残差的视频编码方法及装置与流程
  • 使用先前帧残差的运动矢量预测的制造方法与工艺
  • 一种用于手机屏幕缺陷检测的深度残差网络构造方法与流程
  • 一种基于残差卡方检验法的GPS诱骗识别和阈值决策方法与流程
  • 适应性跨分量残差预测的制造方法与工艺
  • 基于Pauli分解和深度残差网的极化SAR影像分类方法与流程
  • 一种基于深度残差网络和LSTM的图像理解方法与制造工艺
  • 用位深度可分级性的增强层残差预测对视频数据进行编码和/或解码的方法和设备的制作方法
  • 用位深度可分级性的增强层残差预测对视频数据进行编码和/或解码的方法和设备的制作方法
  • 一种基于残差与双级Elman神经网络的液压伺服系统故障定位方法
深度残差神经网络相关技术
  • 用位深度可分级性的增强层残差预测对视频数据进行编码和/或解码的方法和设备的制作方法
  • 一种基于残差与双级Elman神经网络的液压伺服系统故障定位方法

PHP网站源码辽阳外贸网站设计多少钱杭州网站建设多少钱福永网站建设推荐黄冈推广网站哪家好眉山设计网站推荐汕头SEO按天扣费推荐兰州网站推广方案价格大浪关键词按天扣费价格连云港优秀网站设计报价大丰营销型网站建设价格坂田企业网站建设哪家好抚州建网站报价山南网站推广系统哪家好龙岗高端网站设计推荐忻州网站优化推广推荐喀什网站关键词优化宣城网站设计模板报价莱芜优化多少钱金昌网页设计哪家好爱联网站优化排名多少钱苏州企业网站制作哪家好盐城关键词按天计费价格雅安模板制作推荐衢州百度标王价格绵阳网站优化排名哪家好飞来峡百度竞价包年推广多少钱大芬建网站公司乐山seo网站推广推荐楚雄企业网站设计报价泸州网站设计报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化