基于数据划分混合重采样的工业机器故障检测方法、设备及存储介质与流程

文档序号：30376804发布日期：2022-06-11 02:17阅读：77来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

1.本发明涉及一种基于数据划分混合重采样的工业机器故障检测方法、设备及存储介质。

背景技术：

2.分类问题已经成为机器学习领域中热点问题，已经被用于数据分析以及许多领域的预测中。对类别不平衡数据集的评估是一件复杂的任务，在二元分类问题中，类别不平衡问题是指某一类别的样本数量明显少于另一个类别样本的数量。其中，数量少的样本被称为小样本，数量多的样本被称为大样本。若使用传统的分类器处理不平衡数据集，则模型的性能往往会偏向于大样本。因此，如何在提高模型对小样本识别率的同时不降低模型对大样本的分类性能是类别不平衡学习领域的目标。
3.工业机器故障的检测过程可以使用机器学习中的数据分类模型。其中，数据的采集来源于机器上的传感器。通常地，故障类样例是少于非故障类样例的，因此使用分类模型对工业机器故障进行预测是一个类别不平衡分类问题，机器故障检测模型的目标是能够有效地识别出传感器中的故障类数据，一个有效的分类模型需要提高对故障类传感器数据的识别率。
4.使用类别不平衡分类技术可以有效地识别工业机器的故障，在故障识别中已经存在许多算法用于解决类别不平衡问题，主要包括数据层次、算法层次以及混合方法三大类。其中数据层次的方法分为过采样、欠采样和混合采样方法三大类。过采样包括随机过采样技术以及基于生成新小样本的过采样技术。通过增加小样本的数量来平衡当前数据的类别分布，然而会形成不正确或者多余的小样本，容易造成分类模型的过拟合。欠采样方法通过去除大样本来达到类别分布平衡，很容易丢失大类样本的有用信息。混合采样方法同时使用了过采样机制以及欠采样机制，因此可以提高分类模型的泛化能力，同时也降低了分类模型过拟合的概率。

技术实现要素：

5.为了弥补现有基于不平衡分类方法的工业机器故障检测的不足，本发明旨在提供一种基于数据划分混合重采样的工业机器故障检测方法、设备及存储介质。
6.本发明的一方面，提供了基于数据划分混合重采样的工业机器故障检测方法，包括以下步骤：
7.步骤1)基于数据分布的传感器数据划分：
8.接收工业机器相关的传感器数据，将数据划分为非故障类集max与故障类集min，并基于数据分布的特点，进一步将工业机器相关的传感器数据划分为边界区域小样本集d
bor+
、噪声小样本集d
noise+
、大类安全区域样本集d
safe-。
9.步骤2)对数据进行去噪处理：
10.从故障类集min中去除噪声小样本集d
noise+
，得到min1和|min1|，其中min1＝min-d
noise+
，|min1|为min1中样本的数量。
11.步骤3)基于边界区域的过采样：
12.采用边界区域小样本集d
bor+
生成新的传感器小样本集d
new+
，d
new+
用于表征新生成的缺陷类数据，用以平衡类别数据分布，其数量为|d
new+
|。
13.步骤4)基于数据分布的欠采样：对步骤1获得的大类安全区域样本集d
safe-进行基于簇的欠采样，得到d’safe-。
14.步骤5)构建训练数据集：基于步骤2-4获得的数据集，构建机器缺陷检测模型的训练数据集d＝min1∪d
new+
∪d’safe-。
15.步骤6)训练工业机器故障检测模型：使用步骤5获得的训练数据集d，训练随机森林模型m。工业机器故障的识别可以转换为二元分类问题，将传感器数据分为两类。其中，数量少的传感器数据属于小类或者故障类，数量多的传感器数据属于大类或者非故障类。通过使用训练随机森林模型m对工业机器相关的传感器数据进行分类，若类别是小类，则判别为故障类，从而识别出工业机器中的故障。
16.进一步说，步骤1)中，边界区域小样本集d
bor+
、噪声小样本集d
noise+
、大类安全区域样本集d
safe-是通过使用5近邻方法得到。
17.进一步说，步骤3)具体是：
18.首先，需要计算在边界区域需要生成的小样本的数量|d
new+
|；
19.然后，利用smote算法对边界区域的小样本进行过采样，新生成的小样本集即为d
new+
。
20.进一步说，|d
new+
|的计算公式如下：
21.|d
new+
|＝1/2*f*|d
safe-|-|min1|
22.其中f为后平衡率，|d
safe-|为大类安全区域样本集d
safe-的样本数量。
23.进一步说，步骤4)具体是：
24.首先对大类安全区域样本集d
safe-进行聚类，得到若干簇；
25.然后在每个簇内进行随机欠采样。
26.最后，对欠采样后的簇进行合并，得到采样后的大类集d’safe-。其中，d’safe-中样本的数量为|d’safe-|，|d’safe-|＝(|min1|+|d
new+
|)/f。
27.进一步说，所述的聚类采用k-means聚类。
28.进一步说，每个簇内保留的非故障类传感器数据的个数为(|min1|+|d
new+
|)/(f*k)，其中k表示k-means聚类所产生的数据类。
29.本发明的另一方面，提供了基于数据划分混合重采样的工业机器故障检测设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述的基于数据划分混合重采样的工业机器故障检测方法。
30.本发明的再一方面，提供了所述存储介质存储有计算机程序，所述计算机程序用于执行上述的一种基于数据划分混合重采样的工业机器故障检测方法。
31.本发明与现有技术相比，本发明产生的有益效果是：
32.本发明首先使用了一种混合采样技术来平衡当前传感器数据的类别分布。一方面，利用具有丰富分类信息的边界小样本来生成新的小样本。相比于随机过采样技术，该方
法无需复制原有的故障类小样本，能够生成新的故障类样本信息。另一方面，基于聚类算法的欠采样技术在考虑到非故障类样本的数据分布的前提下，同时通过去除大样本平衡当前的类别分布。然后，构建类别分布相对平衡的训练集，构建随机森林分类模型，该模型可用于工业机器故障检测。相比于已存在的不平衡处理机制，基于数据划分混合重采样技术不仅能够缓解过采样机制中的易过拟合问题，还能够有效地缓解欠采样中的信息丢失问题。同时，基于聚类算法的欠采样技术相比于随机欠采样，通过考虑非缺陷类样本的数据分布，可以有效地保留数据分布的特征。
附图说明
33.图1为本发明提出的一种基于数据划分混合重采样的工业机器故障检测方法原理图。
34.图2为本发明的设备结构图。
具体实施方式
35.本发明使用了混合采样技术可以有效解决传感器数据中的类别不平衡问题。在使用二元不平衡分类技术检测工业机器故障时，故障类为小样本，非故障类为大样本。一方面，使用基于边界传感器样本的过采样技术提高训练集中故障类样本的数量；另一方面，考虑到传感器样本的数据分布，使用基于聚类的欠采样技术去除非故障类样本。主要包含以下步骤：
36.步骤1)基于数据分布的传感器数据划分：
37.接收工业机器相关的传感器数据，并将数据划分为非故障类集max与故障类集min两个集合，并基于数据分布的特点，进一步将工业机器相关的传感器数据划分为边界区域小样本集d
bor+
、噪声小样本集d
noise+
、大类安全区域样本集d
safe-。其中，传感器数据的划分采用了5近邻方法，即基于每个传感器数据5近邻中样本的类别来判定每个传感器样本的数据分布特征。
38.步骤2)对数据进行去噪处理：
39.从工业机器传感器小类数据集min中去除步骤1得到的噪声故障类样本集d
noise+
，得到min1和|min1|。其中，min1＝min-d
noise+
，|min1|为min1中传感器样本的数量。在工业机器故障检测的模型中，噪声数据是没有任何价值的，反而会降低模型的性能，会增加模型过拟合的概率。因此，需从故障类集min中去除故障类噪声数据。其中，噪声数据集的识别是基于5近邻的方法，若一个小样本的5近邻中全部都为大类样本，则该小样本处于噪声区域，从而得到d
noise+
。
40.步骤3)基于边界区域的过采样：
41.使用步骤1得到的边界区域小样本集d
bor+
生成新的传感器小样本，得到d
new+
和|d
new+
|。其中，d
new+
为新生成的缺陷类数据，可用以平衡类别数据分布。|d
new+
|为d
new+
中工业机器传感器样本的数量。边界样本即分布于分类决策边界的样本，相比于其他区域的样本，因为边界样本靠近决策边界，具有较为丰富的分类信息，对分类模型的构建较为重要。若边界样本的数量足够多，则能够训练出识别率较高的分类模型。因此，可使用边界区域生成新的小样，以得到更多的处于边界区域的缺陷类传感器数据。具体如下：首先，计算需要生成
的缺陷类样本的数量|d
new+
|，其中，|d
new+
|＝1/2*f*|d
safe-|-|min1|。f是混合重采样后需要达到的不平衡率，被称为后平衡率。|min1|是步骤2得到的去噪后的小样本故障类数据的个数。|d
safe-|是步骤1得到的处于安全区域中的非故障类数据的个数。然后，利用smote算法，基于边界区域的非故障类传感器样本生成新的小样本以平衡类别分布，新生成的小样本集为d
new+
。
42.步骤4)基于数据分布的欠采样：
43.对步骤1获得的大类安全区域样本集d
safe-进行基于簇的欠采样，得到d’safe-，可以进一步平衡传感器数据的类别分布。使用基于聚类算法并在簇内进行欠采样，可以有效地避免随机欠采用中的大样本信息丢失问题。具体的：首先，使用k-means聚类算法将处于安全区域的大样本集d
safe-划分成若干个簇。然后，在簇内进行随机欠采样。最后，对欠采样后的簇进行合并，得到d’safe-。其中，d’safe-中样本的数量为|d’safe-|＝(|min1|+|d
new+
|)/f，每个簇内保留的非故障类传感器数据的个数为(|min1|+|dnew+|)/(f*k)。
44.步骤5)构建训练数据集：
45.基于步骤2-4获得的数据集，构建机器缺陷检测模型的训练数据集d。d中的类别不平衡等于f，即d中小样本的数量除以大样本的数量等于f。步骤2获得的过滤后的小样本集min1、步骤3得到的基于边界小样本生成的小样本集d
new+
以及步骤4得到的基于聚类欠采样后的安全区域大样本集d’safe-共同构成了工业机器故障检测模型的训练集。即d＝min1∪d
new+
∪d’safe-。
46.步骤6)训练工业机器故障检测模型：使用步骤5获得的训练集d，基于随机森林模型，训练得到工业机器故障检测模型m。m是个集成分类模型，相比于单分类器模型，具有较高的泛化能力。使用m可对工业相关的传感器数据的类别进行预测，若判定为小类则识别出工业机器中的故障。由于用于训练m的训练集是类别分布相对平衡的，因此m对故障类数据具有较高的识别率。
47.优选地，步骤1)中，由于工业机器故障的概率比较低，因此若使用数据分类模型对工业机器故障进行预测需要使用类别不平衡处理机制以提高分类模型对故障类数据识别的概率。采用基于数据划分的技术进行混合采样，利用5近邻中大样本类别的比例，可以进行数据划分，得到3个区域。噪声小数据的5近邻都为大样本；大类安全区域样本的5近邻都为大样本；大样本5近邻中的小样本被看作是边界小样本。
48.优选地，步骤2)中，为了提高基于分类算法的机器故障检测模型的鲁棒性，去除了训练集中的噪声数据。其中，噪声数据并不含有关于模型训练的有用信息，并会干扰分类模型的训练。
49.优选地，步骤3)中，使用边界区域的小样本生成新的小样本，通过smote算法过采样可以提高模型对故障类样本的分类性能。
50.优选地，步骤4)中，若一个大样本的5近邻都为大样本，则该大样本处于安全区域。首先，对该区域的样本进行聚类，然后在每个簇内进行随机欠采样，该基于聚类机制的欠采样模型不仅能够降低模型对大样本的偏向程度，还能够保证过采样后的大类数据分布与最初的数据分布保持高度一致。
51.优选地，步骤5)中，综合小样本集min1，基于边界小样本生成的小样本集d
new+
以及基于聚类欠采样后的安全区域大样本集d’safe-，得到用以训练工业机器故障检测模型的训
练集d，并且d中的类别分布是近似平衡的，不平衡率等于预定义的后平衡率f。
52.优选地，步骤6)中，基于d可以训练得到随机森林模型，该集成分类模型对传感器样本类别的预测即实现了工业机器故障检测。
53.实施例：
54.本实施例提出了一种基于数据划分混合重采样的工业机器故障检测方法，如图1所示，该模型中包含了基于工业机器传感器数据分布的数据划分机制、故障类传感器数据过滤机制、基于边界传感器数据区域的过采样机制、基于传感器数据分布的欠采样机制、训练数据集的构建以及工业机器故障检测模型。
55.首先，将工业机器相关的传感器数据分为大样本和小样本。其中，小样本用以描述故障类数据。然后，使用了基于数据分布的数据划分技术对具有不同特征的数据区域划分，从而得到边界区域小样本集d
bor+
、噪声小样本集d
noise+
、大类安全区域样本集d
safe-。不同区域中的样本集具有不同的数据分布特征，采用5近邻方法来识别不同区域的样本。若一个小样本的邻居样本全为大样本，则该小样本为噪声样本。同时，小样本5近邻中的大样本被放入边界区域中。相反地，若一个小样本的邻居样本全为小样本，则该小样本处于安全区域中。为了提高故障检测模型的鲁棒性，降低其过拟合的概率，从最初的数据集中去除处于小类噪声区域的样本集d
noise+
。然后，利用边界区域中的小样本进行过采样，具体是：首先，需要评估需要生成的小样本的数量。然后，利用smote算法对边界区域的小样本进行过采样，新生成的小样本集为d
new+
。
56.同时，使用基于聚类算法的欠采样技术去除大样本，通过在簇内随机欠采样，该技术在平衡类别分布的同时保持最初大样本的类别分布。进而，构建类别分布平衡的训练数据集d＝min1∪d
new+
∪d’safe-。最后，利用d中的工业机器相关的传感器样本，训练得到随机森林分类模型m。使用m对工业机器相关的传感器数据进行分类，若类别是小类，则判别为故障类，从而识别出工业机器中的故障。
57.本发明的实施例可以应用在网络设备上。实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的，其中计算机程序用于执行上述步骤1)-步骤6)所确定的方法。从硬件层面而言，如图2所示，为本发明的基于数据划分混合重采样的工业机器故障检测方法设备的硬件结构图，除了图2所示的处理器、网络接口、内存以及非易失性存储器之外，所述设备通常还可以包括其他硬件，以便在硬件层面进行的扩展。另一方面，本技术还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述步骤1)-步骤6)所确定的方法。
58.对于实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
59.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
60.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的
包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。
61.以上所述仅为本技术的较佳实施例而已，并不用以限制本技术，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术保护的范围之内。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李伟邱炜伟尚璇胡麦芳张珂杰
技术所有人：杭州趣链科技有限公司
我是此专利的发明人

上一篇：一种氨基酸螺旋阵列薄膜及其制备方法
上一篇：电动握线器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。