一种基于三维残差神经网络和视频序列的动态手语识别方法与流程

文档序号：18398313发布日期：2019-08-09 23:37阅读：967来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明涉及手语识别技术领域，具体为一种基于三维残差神经网络和视频序列的动态手语识别方法。

背景技术：

手语识别是聋哑人与非聋哑人交流的一种有效技术，随着人机交互研究的不断深入，手语识别已成为一个热门话题。近年来，手语自动识别系统通过将手势转换为文本或语音，为人机交互创造了一种新的方式，这种技术可以通过计算机辅助技术来实现。目前，在这方面已经有许多成功的应用，如分配语言翻译、手语导师和特殊教育，这些都可以帮助聋哑人与他人进行流利的交流。另一方面，手语普遍是由一系列动作构成的，是一种具有相似特征的快速运动。因此，静态手语识别技术很难解决手语动作的复杂性和变化性问题。因此，研究动态手语识别技术是解决此类问题的有效方法。基于视觉的动态手势识别技术具有灵活性、可扩展性和低成本等特点，是当前手势交互技术研究的热点。然而，动态手语识别技术在解决身体背景下手指运动的复杂性问题方面也面临着挑战。另一个困难是如何从图像或视频序列中提取最有效的特征。此外，如何选择合适的分类器也是获得准确识别结果的关键因素。

为了帮助聋哑人在日常生活中进行正常的交流，越来越多的研究者致力于改善上述问题，在动态手语识别方面已经取得了许多成果。解决动态手语识别问题的方法主要有两种：一种是基于手势形状和运动轨迹的识别方法，另一种是基于手语视频序列的识别方法。

在传统的动态手语识别中，主要利用手势的形状特征和运动轨迹特征来识别手势。但是这些特征不能完全满足实际动态手语识别的要求。随着深度学习理论的迅速发展，数据驱动方法在目标检测和手势识别方面表现出了突出的优异性。与基于手势形状和运动轨迹的手语识别方法不同，基于视频序列的手语识别能够充分利用时间信息，与整个场景相比，手的尺寸相对较小，因此手语动作的有效空间特征会被不相干信息所覆盖。因此，同时学习手语动作的时空特征将会是动态手语识别的一种有效方法。

技术实现要素：

本发明的目的在于提供一种基于三维残差神经网络和视频序列的动态手语识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于三维残差神经网络和视频序列的动态手语识别方法，所述方法提出了基于三维残差神经网络的新模型b3dresnet，包括以下步骤：

步骤1，在视频帧中，采用fasterr-cnn模型检测手的位置，并从背景中分割出手；

步骤2，利用b3dresnet模型对输入的视频序列进行手势的时空特征提取和特征序列分析；

步骤3，通过对输入的视频序列进行分类，可以识别手势，有效地实现动态手语识别。

进一步的，所述采用fasterr-cnn模型检测手的位置的步骤如下：

(1)当图像序列输入卷积神经网络时，将会生成特征图，区域提议网络在以核大小为n×n的网络窗口在特征图上滑动；

(2)区域生成网络推荐候选区域，输出多个符合条件的候选区域；

(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域，然后输出固定长度的候选区域；

(4)对每个感兴趣区域进行分类和边界框回归，输出候选区域所属的类，和候选区域在图像中的精确位置。

进一步的，所述b3dresnet模型主要包括17个卷积层，2个双向lstm层，1个全连接层；在输入层中，有八个大小为112×112的图像帧，以当前帧为中心，并通过三个具有三维通道输入l×h×w，其中l，h和w是时间长度，高度和宽度；然后，分别在三个通道运用三维卷积，其内核大小为7×7×3，其中7×7在空间维度中，在时间维度上为3；核大小为2×2×1的下采样作用于卷积层中的每个特征图，来降低特征图维数；通过在三个通道上应用具有内核大小3×3×3的3d卷积来获得下一个卷积层c2_x，下一层c3_x，c4_x和c5_x具有相同的操作；之后，在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本；然后特征向量被送到在两个方向上运行的长短期记忆网络；将每个方向长短期记忆网络的隐藏状态层，完全连接层和软最大层组合以获得对应于每个动作的中间分数；最后，将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。

进一步的，所述b3dresnet模型对输入的视频序列进行手势的时空特征提取包括：首先提取输入视频序列的特征向量，通过构建三维卷积，卷积层中的特征映射连接到前一层中的多个连续帧，然后捕获运动信息；三维卷积网络层的设计原理是利用三维卷积核进行的，它可以从帧立方体中提取一种类型的特征；在任何单个网络层的每个要素中，任意位置处的特征向量值由以下公式给出：

其中，tanh()是双曲正切函数，参数t和x是当前层的连接参数，h、w和d是三维卷积内核的高度，宽度和时间维度，z是特征层的偏差值。

本发明利用输入的加性残差函数，通过快捷连接，学习时空特征；为了将二维残差单元用于编码时空视频信息的三维体系结构，基本的残余单元按照三维卷积网络层的设计原理进行修改，三维卷积分别在三个通道中的每一个通道具有卷积核大小为3×3×3的相同核尺寸，b3dresnet模型可以通过将残差连接应用于三维卷积网络，并且自动地从输入视频序列中提取时空特征。

进一步的，所述b3dresnet模型对输入的视频序列进行手势的特征序列分析包括：利用双向长短期记忆单元，其包含六个共享权重并整合来自未来和过去的信息，以对视频序列中的每个块进行预测；在双向长短期记忆单元中，前向传播层和后向传播层连接到输出层；从概念上讲，存储器单元存储过去的上下文，输入门和输出门单元允许长时间存储上下文；同时，可以通过遗忘门清除单元中的存储器；从形式上讲，包括输入序列x＝{x1，x2，...，xt}，单元状态c＝{c1，c2，...，ct}和隐藏状态h＝{h1，h2，...，ht}，it，ft，ot，ct，gt，ht分别是输入门，遗忘门，输出门，存储器单元激活矢量，状态函数，隐藏函数；双向长短期记忆单元的方程如下：

it＝σ(wxixt+whiht-1+bi)(2)

ft＝σ(wxfxt+whfht-1+bf)(3)

ot＝σ(wxoxt+whoht-1+bo)(4)

gt＝tanh(wxcxt+whcht-1+bx)(5)

ct＝ftct-1+itgt(6)

ht＝ottanh(ct)(7)

其中tanh()是双曲正切函数，遗忘门决定何时应从存储器单元清除信息，输入门决定何时应将新的形成结合到存储器中，该层生成一组候选值，如果输入门允许，它们将被添加到存储器单元中；参考公式(6)，基于遗忘门，输入门和新候选值的输出，更新存储器单元；在公式(7)中，输出门控制隐藏状态和存储信息；最后，隐藏状态表示为存储器单元状态的函数和输出门之间的乘积。

与现有技术相比，本发明的有益效果是：

本发明提出了一种用于动态手语识别的新模型b3dresnet。该模型通过分析视频序列的时空特征，可以提取有效的动态手势时空特征序列，从而达到识别不同手势的目的，并且在复杂或类似的手语识别上也获得了良好的性能。通过测试数据集devisign-d和slr_dataset的实验结果表明，本发明可以准确有效地区分不同的手语，以及相似的手势对。此外，本发明充分利用了动态手语的时空特征，提高了动态手语识别的准确性和整体性能。

附图说明

图1为本发明结构框架图；

图2为本发明b3dresnet模型结构图；

图3为本发明三维残差结构单元图；

图4为本发明双向长短期记忆网络结构单元图；

图5为本发明与其他方法的对比结果图；

图6为本发明手部定位和分割结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。

本发明提供一种技术方案：一种基于三维残差神经网络和视频序列的动态手语识别方法，其结构框架如图1所示。所述方法提出了基于三维残差神经网络的新模型b3dresnet，包括以下步骤：

步骤1，在视频帧中，采用fasterr-cnn模型检测手的位置，并从背景中分割出手。

步骤2，利用b3dresnet模型对输入的视频序列进行手势的时空特征提取和特征序列分析。

步骤3，通过对输入的视频序列进行分类，可以识别手势，有效地实现动态手语识别。

手部位置的检测对于时间分割和随后的识别模块是至关重要的步骤。为了获得图像中手部位置的准确信息，选择性能优良的目标检测算法至关重要。与ssd，yolo和其他方法相比，fasterr-cnn具有更高的精度和更强的鲁棒性，适用于较小物体的检测。

如图1的目标定位模块所示，采用fasterr-cnn模型检测手的位置的步骤如下：

(1)当图像序列输入卷积神经网络时，将会生成特征图，区域提议网络在以核大小为n×n的网络窗口在特征图上滑动。

(2)区域生成网络推荐候选区域，输出多个符合条件的候选区域。

(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域，然后输出固定长度的候选区域。

(4)对每个感兴趣区域进行分类和边界框回归，输出候选区域所属的类，和候选区域在图像中的精确位置。

表1检测结果

如表1所示，fasterr-cnn模型对于目标具有高检测精度。此结果反映在以下参数中：和因此，使用fasterr-cnn模型来检测手部，可以获得位置的精确信息。

本发明提出了b3dresnet模型，用于识别基于视频序列的动态手语。具体而言，该模型可以完成视频序列特征提取并学习长期时空特征。对于动态手语识别，不同的动态手语手势通常对应于具有不同标签的视频。因此，可以通过对标签进行分类来识别手势。通过提取视频的时空特征，对特征向量进行分类，可以很好地实现各种动态手语的识别。为了提高动态手语的识别精度，通过双向长短期记忆单元进一步分析特征序列。b3dresnet模型介绍如下。

图2显示了b3dresnet模型的详细结构，主要包括17个卷积层，2个双向lstm层，1个全连接层；在输入层中，有八个大小为112×112的图像帧，以当前帧为中心，并通过三个具有三维通道输入l×h×w，其中l，h和w是时间长度，高度和宽度；然后，分别在三个通道运用三维卷积，其内核大小为7×7×3，其中7×7在空间维度中，在时间维度上为3；核大小为2×2×1的下采样作用于卷积层中的每个特征图，来降低特征图维数；通过在三个通道上应用具有内核大小3×3×3的3d卷积来获得下一个卷积层c2_x，下一层c3_x，c4_x和c5_x具有相同的操作；之后，在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本；然后特征向量被送到在两个方向上运行的长短期记忆网络；将每个方向长短期记忆网络的隐藏状态层，完全连接层和软最大层组合以获得对应于每个动作的中间分数；最后，将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。

b3dresnet模型对输入的视频序列进行手势的时空特征提取包括：b3dresnet模型首先提取输入视频序列的特征向量。针对图像序列的识别问题，一般借助三维卷积从视频序列中捕获空间和时间维度信息。通过构建三维卷积，卷积层中的特征映射连接到前一层中的多个连续帧，然后捕获运动信息；三维卷积网络层的设计原理是利用三维卷积核进行的，它可以从帧立方体中提取一种类型的特征；在任何单个网络层的每个要素中，任意位置处的特征向量值由以下公式给出：

其中，tanh()是双曲正切函数，参数t和x是当前层的连接参数，h、w和d是三维卷积内核的高度，宽度和时间维度，z是特征层的偏差值。

然而，三维卷积网络层数越多，其学习能力会更强。此外，向三维卷积网络添加残余连接司以简化更深层网络的训练。本发明不是直接学习未引用的非线性函数，而是利用输入的加性残差函数，通过快捷连接，有助于学习时空特征。这种三维残差结构如图3所示。为了将二维残差单元用于编码时空视频信息的三维体系结构，基本的残余单元按照三维卷积网络层的设计原理进行修改，三维卷积分别在三个通道中的每一个通道具有卷积核大小为3×3×3的相同核尺寸，b3dresnet模型可以通过将残差连接应用于三维卷积网络，并且自动地从输入视频序列中提取时空特征。

b3dresnet模型对输入的视频序列进行手势的特征序列分析包括：b3dresnet模型利用双向长短期记忆单元，其包含六个共享权重并整合来自未来和过去的信息，以对视频序列中的每个块进行预测，其结构如图4所示。在双向长短期记忆单元中，前向传播层和后向传播层连接到输出层；从概念上讲，存储器单元存储过去的上下文，输入门和输出门单元允许长时间存储上下文；同时，可以通过遗忘门清除单元中的存储器；从形式上讲，包括输入序列x＝{x1，x2，...，xt}，单元状态c＝{c1，c2，...，ct}和隐藏状态h＝{h1，h2，...，ht}，it，ft，ot，ct，gt，ht分别是输入门，遗忘门，输出门，存储器单元激活矢量，状态函数，隐藏函数；双向长短期记忆单元的方程如下：

it＝σ(wxixt+whiht-1+bi)(2)

ft＝σ(wxfxt+whfht-1+bf)(3)

ot＝σ(wxoxt+whoht-1+bo)(4)

gt＝tanh(wxcxt+whcht-1+bc)(5)

ct＝ftct-1+itgt(6)

ht＝ottanh(ct)(7)

其中tanh()是双曲正切函数，遗忘门决定何时应从存储器单元清除信息，输入门决定何时应将新的形成结合到存储器中，该层生成一组候选值，如果输入门允许，它们将被添加到存储器单元中；参考公式(6)，基于遗忘门，输入门和新候选值的输出，更新存储器单元：在公式(7)中，输出门控制隐藏状态和存储信息：最后，隐藏状态表示为存储器单元状态的函数和输出门之间的乘积。

从以上公式表达上可以发现，b3dresnet模型可以获得输入视频的全部功能。对于动态手语识别，b3dresnet模型具有捕获序列内的上下文信息的强大能力。

本发明在测试数据集上进行，包括devisign-d数据集和slr_dataset数据集。

devisign-d数据集是一个中文手语数据集，为全球手语识别社区的研究人员提供了一个大词汇量的中文手语数据集，用于训练和评估他们的算法。它由500个日常词汇组成。数据涵盖8个不同的手语者。其中，对于4名手语者(2名男性和2名女性)，其他4名手语者(2名男性和2名女性)共录制两次词汇表。它完全包括6000个视频。

slr_dataset由huang等人收集并在他们的项目网页上发布。微软kinect摄像头用于录制视频，并提供rgb，深度和身体关节信息。在本发明中，仅使用rgb视频信息。slr_dataset包含2.5万个已标记的视频实例，由50名手语人员录制，每个视频实例都由专业的中文手语老师注释。

b3dresnet模型是基于深度学习平台caffe上实现的，实验过程中使用的gpu是quadrop4000。训练模型时，批量大小设置为2，基础学习率设置为0.1，momentum参数设置为0.9。由于数据集的大小限制，我们采取以下有效策略来避免过度拟合问题：一种是众所周知的方法-数据增强，图像序列被随机裁剪。另一种方式是批量标准化，旨在减少内部协变量偏移，并应用于所有卷积层，加速深度神经网络的训练过程。

实验参数设置后，b3dresnet模型进行动态手语识别训练，主要从输入视频中提取时空特征，分析长期时间动态特征，预测手势序列的标签。为了评估b3dresnet模型在动态手语识别中的性能，采用识别准确度作为标准。我们将提出的方法b3dresnet模型与一些传统的序列动作识别模型进行了比较，例如基于devisign-d数据集的res3d，2d-resnet和alexnet。动态手语识别结果的比较如图5所示。当训练这些模型直到大约20k迭代次数时，识别准确率开始达到最大值。结果表明，res3d，2d-resnet和alexnet的准确度分别为86.6％，85％和73.8％，而我们的方法准确率为89.9％，优于其他方法至少3.3％。因此，实验表明b3dresnet模型具有最佳的动态手语性能。

对于基于视频序列的动态哑语手势识别，关键部位是识别手部区域的动作，然而手部区域所占空间相较于整个图像而言，比例非常少，因此大量的背景区域就显得冗余。本发明通过检测手部区域，再将手部从背景中分割出来，可以减少b3dresnet模型的计算量，从而提高识别准确率。实验结果如图6所示。为了验证这种方法，在devisign-d数据集和slr_dataset上使用两种不同的训练方式来评估该预处理过程：

方式1：对图像序列先检测并分割手部区域；

方式2：不做任何处理，直接训练。

表2预处理对比结果

实验结果如表2所示，通过预处理，在数据集devisign-d和slr_dataset进行验证，发现我们的方法是实际有效的，其识别准确率提高了46.1％和36.7％。

表3在数据集devisign-dandslr_dataset上进行对比

b3dresnet模型在数据集devisign-d和slr_dataset上的训练结果如表3所示。数据结果显示，b3dresnet模型取得了最高的识别准确率。从表3数据可以看出，由于不同数据集的复杂性不同，slr_dataset数据集更有挑战性。具体地，在devisign-d数据集和slr_dataset中，本发明结果分别为89.8％和86.9％，分别比blstm-nn高29.5％和30.3％，比hmm-dtc高25.4％和21.7％，比dnn高出19％和21.1％，比c3d高出11.5％和13.4％。比较结果表明，本发明在两个测试数据集上均获得了动态手语的最新识别精度。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闵卫东;廖艳秋;熊鹏文;韩清;张愚;徐剑强;邹松;熊辛;汪琦
技术所有人：南昌大学
我是此专利的发明人

上一篇：一种铁皮石斛去皮加工方法及工作流程与流程
上一篇：细胞培养装置及使培养基富氢的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。