一种基于深度学习的信用评分集成分类系统和方法与流程

文档序号：19424457发布日期：2019-12-17 15:01阅读：419来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明属于数据挖掘技术领域，具体涉及一种基于深度学习的信用评分集成分类系统。

背景技术：

近年来，信贷市场发展迅速，金融机构面临的挑战越来越多。信用风险评估作为金融行业的重要环节，在选择信贷客户、度量风险等方面发挥着重要作用。个人的信用评分通常为二分类问题，根据客户的信用数据和相关特征开发分类器，构建决策系统，将客户分为信用良好和信用不良两类，向金融机构提供决策支持。

目前，应用于信用评分的分类方法主要有两种：统计方法和人工智能方法，这些方法相比过去的经验判断更加准确、可靠。统计方法中最常用的两个模型是逻辑回归和线性判别分析，它们易于实现且准确率较高而广受欢迎，但它们具有理想性的假设可能会限制模型性能。后来人工智能方法开始应用于信用评分问题，如决策树、支持向量机等。然而，单一的算法并不能有效地解决所有信用评分问题，而集成学习算法结合多种基础算法，考虑多个分类器，具有多样性，它的思路是基于多个学习算法的集成来提升预测结果。据研究表明，集成学习算法比单一的人工智能方法和统计方法效果更好。目前，有很多学者将基础的机器学习方法应用于信用评分领域，然而这些方法主要关注抽象层次的分类器输出，通常需要复杂的特征工程。而具有足够隐藏层的深度学习模型可以自动学习模式特征，并将特征学习融入到了建立模型的过程中，具有强适用性和迁移性，但深度学习在该领域研究甚少。

综上所述，现有技术存在的问题是：现有的信用评分模型大多数都是由浅层架构构建，需要复杂的特征工程，准确度较低，具有一定局限性。

技术实现要素：

本发明的目的在于提供一种基于深度学习的信用评分集成分类系统及方法，用以解决现有技术中的现有的信用评分模型大多数都是由浅层架构构建，需要复杂的特征工程，准确度较低的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于深度学习的信用评分集成分类系统，包括数据获取及预处理单元、集成分类训练单元和投票单元；

所述数据获取及预处理单元用于获取信用数据集，并对信用数据集进行数据预处理得到样本数据集，将样本数据集分为样本训练集和样本测试集；

所述集成分类训练单元包括rnn子单元、lr子单元和xgboost子单元，所述集成分类训练单元用于将数据获取及预处理单元得到的样本训练集分别通过rnn子单元、lr子单元和xgboost子单元进行训练，获得样本测试集分别通过每个子单元得到的预测信用概率；

所述投票单元用于对集成分类训练单元获得的三个预测信用概率进行多数投票，若两个或以上的预测信用概率高于0.5则客户信用良好，否则客户信用不良。

进一步的，所述信用数据集包含客户的个人属性值，包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

进一步的，所述数据获取及预处理单元包括数据获取子单元和预处理子单元，所述预处理子单元包括缺失值补充模块、虚拟变量定义模块和归一化模块，所述缺失值补充模块用于通过均值插补的方法补充个人属性值的缺失值，所述虚拟变量定义模块用于将个人属性值中的字母转换为数字，所述归一化模块用于对个人属性值进行归一化处理。

更进一步的，所述rnn子单元中超参数项设置为：隐藏层神经元数量设置为15，隐藏层数量设置为{3,4}，学习速率设置为0.001，批次数量设置为{690，2500}，迭代次数设置为{900，1000}，丢失率设置为0.2。

更进一步的，所述xgboost子单元中超参数项设置为：booster项设置为gbtree，学习速率设置为0.03，迭代次数选取为100，树的最大深度为3，子样本采样率为0.7，特征采样率为0.8。

一种基于深度学习的信用评分集成分类方法，包括如下子步骤：

步骤1：获取信用数据集，并对信用数据集进行数据预处理得到样本数据集；

步骤2：将样本数据集分为样本训练集和样本测试集；

步骤3：根据rnn方法、lr方法和xgboost方法对为样本训练集进行训练，得到集成分类模型，所述集成分类模型包括并行的rnn子模块、lr子模块和xgboost子模块；

步骤4：获得样本测试集分别通过每个子模块得到的预测信用概率，对三个预测信用概率进行多数投票，若两个或以上的预测信用概率高于0.5则客户信用良好，否则客户信用不良。

进一步的，所述信用数据集包含客户的个人属性值，包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

进一步的，所述数据预处理包括以下步骤：

步骤a：采取均值插补的方法补充个人属性值的缺失值；

步骤b:定义虚拟变量，将个人属性值中的字母转换为数字；

步骤c:对个人属性值进行归一化处理。

更进一步的，所述rnn子模块中超参数项设置为：隐藏层神经元数量设置为15，隐藏层数量设置为{3,4}，学习速率设置为0.001，批次数量设置为{690，2500}，迭代次数设置为{900，1000}，丢失率设置为0.2。

更进一步的，所述xgboost子模块中超参数项设置为：booster项设置为gbtree，学习速率设置为0.03，迭代次数选取为100，树的最大深度为3，子样本采样率为0.7，特征采样率为0.8。本发明与现有技术相比具有以下技术特点:

(1)本发明将深度学习算法循环神经网络rnn应用到信用评分问题，解决了浅层架构的局限性，自动学习模式特征，无需复杂的特征工程；

(2)本发明的网络结构具有记忆性，网络的总损失为所有时刻损失函数之和，该结构特点在一定程度上可降低损失，因此具有较低的误分类率，即具有高准确度；

(3)本发明采用并行集成结构，结合了机器学习算法和统计学方法的优势，将逻辑回归lr、极限梯度提升树xgboost与循环神经网络rnn并行集成，构建集成分类器rnn+lr+xgboost，兼顾模型的多样性和准确性，提高了模型的性能。

(4)本发明输出结果直接是所预测客户的信用类别(良好或不良)，为金融机构提供了直观、简便、自动、精确的客户信用分类系统，为审批贷款提供决策支持，提升了金融信贷业务领域的工作效率。

附图说明

图1是本发明的整体框架图；

图2是本发明的具体流程图；

图3是本发明所提模型与单一的分类器分别在三个数据集(澳大利亚、德国、日本)上的auc值折线图；

图4是本发明所提模型与单一的分类器分别在三个数据集(澳大利亚、德国、日本)上的acc值折线图。

具体实施方式

实施例1

在本实施例中公开了一种基于深度学习的信用评分集成分类系统，包括数据获取及预处理单元、集成分类训练单元和投票单元；

所述数据获取及预处理单元用于获取信用数据集，并对信用数据集进行数据预处理得到样本数据集，将样本数据集分为样本训练集和样本测试集；

本发明将深度学习算法循环神经网络rnn应用到信用评分问题，解决了浅层架构的局限性，自动学习模式特征，无需复杂的特征工程。同时，本发明采用并行集成结构，结合了机器学习算法和统计学方法的优势，将逻辑回归lr、极限梯度提升树xgboost与循环神经网络rnn并行集成，构建集成分类器rnn+lr+xgboost，兼顾模型的多样性和准确性，提高了模型的性能。

具体的，所述信用数据集包含客户的个人属性值，包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

具体的，所述数据获取及预处理单元包括数据获取子单元和预处理子单元，所述预处理子单元包括缺失值补充模块、虚拟变量定义模块和归一化模块，所述缺失值补充模块用于通过均值插补的方法补充个人属性值的缺失值，所述虚拟变量定义模块用于将个人属性值中的字母转换为数字，所述归一化模块用于对个人属性值进行归一化处理。

优选的，所述rnn子单元中超参数项设置为：隐藏层神经元数量设置为15，隐藏层数量设置为{3,4}，学习速率设置为0.001，批次数量设置为{690，2500}，迭代次数设置为{900，1000}，丢失率设置为0.2。

优选的，所述xgboost子单元中超参数项设置为：booster项设置为gbtree，学习速率设置为0.03，迭代次数选取为100，树的最大深度为3，子样本采样率为0.7，特征采样率为0.8。

实施例2

在本实施例中公开了一种基于深度学习的信用评分集成分类方法，包括如下子步骤：

步骤1：获取信用数据集，并对信用数据集进行数据预处理得到样本数据集；

步骤2：将样本数据集分为样本训练集和样本测试集；

步骤3：根据rnn方法、lr方法和xgboost方法对为样本训练集进行训练，得到集成分类模型，所述集成分类模型包括并行的rnn子模块、lr子模块和xgboost子模块；选择集成分类模型的子模型时，参考多种单分类器包括：决策树dt、支持向量机svm、逻辑回归lr、线性判别分析lda、随机森林rf、极限梯度决策树xgboost、循环神经网络rnn，对这些分类器进行性能评估，根据auc和acc最高的结果，选择rnn+lr+xgboost结合了统计学方法和机器学习方法的优势，融合了深度学习自动学习模式特征的特点，提升了分类精度；

具体的，所述信用数据集包含客户的个人属性值，包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

具体的，所述数据预处理包括以下步骤：

步骤a：采取均值插补的方法补充个人属性值的缺失值，具体是通过存在值的平均值来插补缺失的值；

步骤b:定义虚拟变量，将个人属性值中的字母转换为数字，具体是指数据集中有a、b、c、d等类别信息是字母，把字母转换为数字，方便软件读取数据，来代替类别特征；

步骤c:对个人属性值进行归一化处理。

优选的，所述rnn子模块中超参数项设置为：隐藏层神经元数量设置为15，隐藏层数量设置为{3,4}，学习速率设置为0.001，批次数量设置为{690，2500}，迭代次数设置为{900，1000}，丢失率设置为0.2。

优选的，所述xgboost子模块中超参数项设置为：booster项设置为gbtree，学习速率设置为0.03，迭代次数选取为100，树的最大深度为3，子样本采样率为0.7，特征采样率为0.8。

具体的，从基础的神经网络可知，神经网络包含输入层、隐藏层、输出层，通过激活函数控制输出，层与层之间通过权值连接。而基础的神经网络只在层与层之间建立了权连接，rnn最大的不同之处就是在层之间的神经元之间也建立的权连接。

假设网络在t时刻接收到输入xt，输出值为ot，所述rnn子模块输出的信用概率采用式ⅰ计算：

其中，yt表示t时刻rnn子模块输出的信用概率，ot表示t时刻输出层输出的值，g是隐藏层到输出层的激活函数，v是隐藏层到输出层的权重矩阵，ht表示t时刻隐藏层输出的值，xt表示t时刻输入的样本信用数据，u是输入层到隐藏层的权重矩阵，ht-1是t-1时刻隐藏层输出的值，w是ht-1作为本次输入的权重矩阵。

由于rnn具有时间序列性，自动将目前的输入传递给下一时刻，因此，将隐藏层输出反复代入输出层最终完成训练。

具体的，所述lr子模块输出的信用概率采用式ⅱ计算：

其中，表示lr子模块输出的信用概率，x表示样本信用数据，ω是最优参数向量，b是最优偏置值。

lr是信用评分领域常用的分类方法之一，也称对数几率回归。对于二分类问题，假设数据集有n个观测值，d＝{(x1,y1),(x2,y2),…,(xn,yn)}，每个观测值x有d个属性描述，即xi＝(xi1；xi2；…；xid)，输出为yi∈{0,1}，则预测函数模型将预测值进行二分类，定义为：

对于二分类，其分类概率可表示为：

由最大似然估计可知，联合概率l(ω,b)为：

其中，表示对第i个样本xi的预测值，yi表示xi的真实标签。

对数似然函数l(ω,b)和代价函数j(ω,b)分别为：

最大似然估计的目标为找到合适的ω和b，令每个样本属于其真实类别的概率越大越好即代价函数或损失函数越小越好。

优选的，所述lr子模块中，最优参数向量ω和最优偏置值b通过梯度下降算法优化得到，参数更新为：

其中α为步长即学习速率。

具体的，xgboost是一种迭代的决策树算法，将树模型复杂度作为正则项加到优化目标中，提升了算法效率，具有快速、高效和可扩展的特性，适用于处理分类问题。所述xgboost子模块输出的信用概率采用式ⅲ计算：

其中，表示xgboost子模块输出的信用概率，ft(xi)表示第t棵树，t表示树的总数量。

若使用平方误差作为损失函数，目标函数可改写为：

其中，是前t-1次迭代的预测结果，ft(xi)是第t次加入的预测函数。若不是平方误差，采用泰勒展开近似定义原始目标函数，去除常数项后，目标函数只依赖每个数据点在损失函数上的一阶导数和二阶导数：

其中，损失函数的一阶导数gi和二阶导数hi分别为

其次定义一棵树的复杂度为：

其中，γ为叶子结点的系数，t为叶子数量，λ为固定系数，||ω||²为叶子权重的l2范数。定义ij为叶子j的样本集，则目标函数可改写为：

可得到每个叶子的最优权重和目标函数分别为：

obj^*可以看作是一个结构评分函数，用来衡量给定的叶子分数的合适程度。值越小证明它越适合数据，计算得到这两个值之后确定了最佳系数，通过下式可计算ft。

优选的，步骤3中根据集成分类模型输出的客户信用概率实数值根据sigmoid函数式ⅳ进行转化，统一为0到1的值：

其中，为各个子模块输出的客户信用概率实数值，为投票时的客户信用概率，

本实施例采用三个开源的信用数据集来验证所提模型的有效性。三个数据集来自uci机器学习库，分别是澳大利亚信用数据集、德国信用数据集和日本信用数据集，其中澳大利亚数据集有690个申请客户的信用数据，包括14个特征属性(6个数值特征，8个分类特征)和1个类别标签，德国数据集有1000个申请客户的信用数据，包括20个特征属性(7个数值特征，13个分类特征)和1个类别标签，日本数据集有690个申请客户的信用数据，包括15个特征属性(6个数值特征，9个分类特征)和1个类别标签，如性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的、财产情况等。

评价实施例中本发明所提模型性能的指标有auc(roc曲线下面积)和准确度(acc)。auc为roc曲线下面积，综合考虑了灵敏度和特异度，其范围从0(无判别力)到1(完全判别力)，越接近1分类效果越好。acc定义为预测正确的样本与测试总样本的比值，越接近1越好。

本文所使用的集成分类器为rnn+lr+xgboost，其中xgboost和rnn具有较多超参数，对于不同的数据集，rnn的超参数不尽相同。表1和表2分别描述了两种算法的超参数。本实施例中，rnn子模块采用如表1所示超参数设置：

表1

本实施例中，xgboost子模块采用如表1所示超参数,描述：

表2

图3为本发明所提模型与单分类器分别在三个数据集(澳大利亚、德国、日本)上的auc值折线图，从实验结果可看出，本发明所提模型的auc值最高。图4为本发明所提模型与单分类器分别在三个数据集(澳大利亚、德国、日本)上的acc值折线图，从实验结果可看出，本发明所提模型的acc值最高。

综上，本发明结合深度学习算法构建集成分类器，为金融机构提供了一种自动化信用评分系统，有效地克服了现有的信用评分系统的不足，实现了简便、精确、直观、高效的自动化信用分类。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：侯榆青;贺心畋;贺小伟;王宾;李思奇;王文强;张翔
技术所有人：西北大学
我是此专利的发明人

上一篇：一种改善血液流动的透析增强型血液透析器的制作方法
上一篇：用于城市工程管理的工程信息显示控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。