一种基于深度学习的信用评分集成分类系统和方法与流程

文档序号:19424457发布日期:2019-12-17 15:01阅读:419来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于深度学习的信用评分集成分类系统和方法与流程

本发明属于数据挖掘技术领域,具体涉及一种基于深度学习的信用评分集成分类系统。



背景技术:

近年来,信贷市场发展迅速,金融机构面临的挑战越来越多。信用风险评估作为金融行业的重要环节,在选择信贷客户、度量风险等方面发挥着重要作用。个人的信用评分通常为二分类问题,根据客户的信用数据和相关特征开发分类器,构建决策系统,将客户分为信用良好和信用不良两类,向金融机构提供决策支持。

目前,应用于信用评分的分类方法主要有两种:统计方法和人工智能方法,这些方法相比过去的经验判断更加准确、可靠。统计方法中最常用的两个模型是逻辑回归和线性判别分析,它们易于实现且准确率较高而广受欢迎,但它们具有理想性的假设可能会限制模型性能。后来人工智能方法开始应用于信用评分问题,如决策树、支持向量机等。然而,单一的算法并不能有效地解决所有信用评分问题,而集成学习算法结合多种基础算法,考虑多个分类器,具有多样性,它的思路是基于多个学习算法的集成来提升预测结果。据研究表明,集成学习算法比单一的人工智能方法和统计方法效果更好。目前,有很多学者将基础的机器学习方法应用于信用评分领域,然而这些方法主要关注抽象层次的分类器输出,通常需要复杂的特征工程。而具有足够隐藏层的深度学习模型可以自动学习模式特征,并将特征学习融入到了建立模型的过程中,具有强适用性和迁移性,但深度学习在该领域研究甚少。

综上所述,现有技术存在的问题是:现有的信用评分模型大多数都是由浅层架构构建,需要复杂的特征工程,准确度较低,具有一定局限性。



技术实现要素:

本发明的目的在于提供一种基于深度学习的信用评分集成分类系统及方法,用以解决现有技术中的现有的信用评分模型大多数都是由浅层架构构建,需要复杂的特征工程,准确度较低的问题。

为了实现上述任务,本发明采用以下技术方案:

一种基于深度学习的信用评分集成分类系统,包括数据获取及预处理单元、集成分类训练单元和投票单元;

所述数据获取及预处理单元用于获取信用数据集,并对信用数据集进行数据预处理得到样本数据集,将样本数据集分为样本训练集和样本测试集;

所述集成分类训练单元包括rnn子单元、lr子单元和xgboost子单元,所述集成分类训练单元用于将数据获取及预处理单元得到的样本训练集分别通过rnn子单元、lr子单元和xgboost子单元进行训练,获得样本测试集分别通过每个子单元得到的预测信用概率;

所述投票单元用于对集成分类训练单元获得的三个预测信用概率进行多数投票,若两个或以上的预测信用概率高于0.5则客户信用良好,否则客户信用不良。

进一步的,所述信用数据集包含客户的个人属性值,包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

进一步的,所述数据获取及预处理单元包括数据获取子单元和预处理子单元,所述预处理子单元包括缺失值补充模块、虚拟变量定义模块和归一化模块,所述缺失值补充模块用于通过均值插补的方法补充个人属性值的缺失值,所述虚拟变量定义模块用于将个人属性值中的字母转换为数字,所述归一化模块用于对个人属性值进行归一化处理。

更进一步的,所述rnn子单元中超参数项设置为:隐藏层神经元数量设置为15,隐藏层数量设置为{3,4},学习速率设置为0.001,批次数量设置为{690,2500},迭代次数设置为{900,1000},丢失率设置为0.2。

更进一步的,所述xgboost子单元中超参数项设置为:booster项设置为gbtree,学习速率设置为0.03,迭代次数选取为100,树的最大深度为3,子样本采样率为0.7,特征采样率为0.8。

一种基于深度学习的信用评分集成分类方法,包括如下子步骤:

步骤1:获取信用数据集,并对信用数据集进行数据预处理得到样本数据集;

步骤2:将样本数据集分为样本训练集和样本测试集;

步骤3:根据rnn方法、lr方法和xgboost方法对为样本训练集进行训练,得到集成分类模型,所述集成分类模型包括并行的rnn子模块、lr子模块和xgboost子模块;

步骤4:获得样本测试集分别通过每个子模块得到的预测信用概率,对三个预测信用概率进行多数投票,若两个或以上的预测信用概率高于0.5则客户信用良好,否则客户信用不良。

进一步的,所述信用数据集包含客户的个人属性值,包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

进一步的,所述数据预处理包括以下步骤:

步骤a:采取均值插补的方法补充个人属性值的缺失值;

步骤b:定义虚拟变量,将个人属性值中的字母转换为数字;

步骤c:对个人属性值进行归一化处理。

更进一步的,所述rnn子模块中超参数项设置为:隐藏层神经元数量设置为15,隐藏层数量设置为{3,4},学习速率设置为0.001,批次数量设置为{690,2500},迭代次数设置为{900,1000},丢失率设置为0.2。

更进一步的,所述xgboost子模块中超参数项设置为:booster项设置为gbtree,学习速率设置为0.03,迭代次数选取为100,树的最大深度为3,子样本采样率为0.7,特征采样率为0.8。本发明与现有技术相比具有以下技术特点:

(1)本发明将深度学习算法循环神经网络rnn应用到信用评分问题,解决了浅层架构的局限性,自动学习模式特征,无需复杂的特征工程;

(2)本发明的网络结构具有记忆性,网络的总损失为所有时刻损失函数之和,该结构特点在一定程度上可降低损失,因此具有较低的误分类率,即具有高准确度;

(3)本发明采用并行集成结构,结合了机器学习算法和统计学方法的优势,将逻辑回归lr、极限梯度提升树xgboost与循环神经网络rnn并行集成,构建集成分类器rnn+lr+xgboost,兼顾模型的多样性和准确性,提高了模型的性能。

(4)本发明输出结果直接是所预测客户的信用类别(良好或不良),为金融机构提供了直观、简便、自动、精确的客户信用分类系统,为审批贷款提供决策支持,提升了金融信贷业务领域的工作效率。

附图说明

图1是本发明的整体框架图;

图2是本发明的具体流程图;

图3是本发明所提模型与单一的分类器分别在三个数据集(澳大利亚、德国、日本)上的auc值折线图;

图4是本发明所提模型与单一的分类器分别在三个数据集(澳大利亚、德国、日本)上的acc值折线图。

具体实施方式

实施例1

在本实施例中公开了一种基于深度学习的信用评分集成分类系统,包括数据获取及预处理单元、集成分类训练单元和投票单元;

所述数据获取及预处理单元用于获取信用数据集,并对信用数据集进行数据预处理得到样本数据集,将样本数据集分为样本训练集和样本测试集;

所述集成分类训练单元包括rnn子单元、lr子单元和xgboost子单元,所述集成分类训练单元用于将数据获取及预处理单元得到的样本训练集分别通过rnn子单元、lr子单元和xgboost子单元进行训练,获得样本测试集分别通过每个子单元得到的预测信用概率;

所述投票单元用于对集成分类训练单元获得的三个预测信用概率进行多数投票,若两个或以上的预测信用概率高于0.5则客户信用良好,否则客户信用不良。

本发明将深度学习算法循环神经网络rnn应用到信用评分问题,解决了浅层架构的局限性,自动学习模式特征,无需复杂的特征工程。同时,本发明采用并行集成结构,结合了机器学习算法和统计学方法的优势,将逻辑回归lr、极限梯度提升树xgboost与循环神经网络rnn并行集成,构建集成分类器rnn+lr+xgboost,兼顾模型的多样性和准确性,提高了模型的性能。

具体的,所述信用数据集包含客户的个人属性值,包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

具体的,所述数据获取及预处理单元包括数据获取子单元和预处理子单元,所述预处理子单元包括缺失值补充模块、虚拟变量定义模块和归一化模块,所述缺失值补充模块用于通过均值插补的方法补充个人属性值的缺失值,所述虚拟变量定义模块用于将个人属性值中的字母转换为数字,所述归一化模块用于对个人属性值进行归一化处理。

优选的,所述rnn子单元中超参数项设置为:隐藏层神经元数量设置为15,隐藏层数量设置为{3,4},学习速率设置为0.001,批次数量设置为{690,2500},迭代次数设置为{900,1000},丢失率设置为0.2。

优选的,所述xgboost子单元中超参数项设置为:booster项设置为gbtree,学习速率设置为0.03,迭代次数选取为100,树的最大深度为3,子样本采样率为0.7,特征采样率为0.8。

实施例2

在本实施例中公开了一种基于深度学习的信用评分集成分类方法,包括如下子步骤:

步骤1:获取信用数据集,并对信用数据集进行数据预处理得到样本数据集;

步骤2:将样本数据集分为样本训练集和样本测试集;

步骤3:根据rnn方法、lr方法和xgboost方法对为样本训练集进行训练,得到集成分类模型,所述集成分类模型包括并行的rnn子模块、lr子模块和xgboost子模块;选择集成分类模型的子模型时,参考多种单分类器包括:决策树dt、支持向量机svm、逻辑回归lr、线性判别分析lda、随机森林rf、极限梯度决策树xgboost、循环神经网络rnn,对这些分类器进行性能评估,根据auc和acc最高的结果,选择rnn+lr+xgboost结合了统计学方法和机器学习方法的优势,融合了深度学习自动学习模式特征的特点,提升了分类精度;

步骤4:获得样本测试集分别通过每个子模块得到的预测信用概率,对三个预测信用概率进行多数投票,若两个或以上的预测信用概率高于0.5则客户信用良好,否则客户信用不良。

具体的,所述信用数据集包含客户的个人属性值,包括性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的和财产情况。

具体的,所述数据预处理包括以下步骤:

步骤a:采取均值插补的方法补充个人属性值的缺失值,具体是通过存在值的平均值来插补缺失的值;

步骤b:定义虚拟变量,将个人属性值中的字母转换为数字,具体是指数据集中有a、b、c、d等类别信息是字母,把字母转换为数字,方便软件读取数据,来代替类别特征;

步骤c:对个人属性值进行归一化处理。

优选的,所述rnn子模块中超参数项设置为:隐藏层神经元数量设置为15,隐藏层数量设置为{3,4},学习速率设置为0.001,批次数量设置为{690,2500},迭代次数设置为{900,1000},丢失率设置为0.2。

优选的,所述xgboost子模块中超参数项设置为:booster项设置为gbtree,学习速率设置为0.03,迭代次数选取为100,树的最大深度为3,子样本采样率为0.7,特征采样率为0.8。

具体的,从基础的神经网络可知,神经网络包含输入层、隐藏层、输出层,通过激活函数控制输出,层与层之间通过权值连接。而基础的神经网络只在层与层之间建立了权连接,rnn最大的不同之处就是在层之间的神经元之间也建立的权连接。

假设网络在t时刻接收到输入xt,输出值为ot,所述rnn子模块输出的信用概率采用式ⅰ计算:

其中,yt表示t时刻rnn子模块输出的信用概率,ot表示t时刻输出层输出的值,g是隐藏层到输出层的激活函数,v是隐藏层到输出层的权重矩阵,ht表示t时刻隐藏层输出的值,xt表示t时刻输入的样本信用数据,u是输入层到隐藏层的权重矩阵,ht-1是t-1时刻隐藏层输出的值,w是ht-1作为本次输入的权重矩阵。

由于rnn具有时间序列性,自动将目前的输入传递给下一时刻,因此,将隐藏层输出反复代入输出层最终完成训练。

具体的,所述lr子模块输出的信用概率采用式ⅱ计算:

其中,表示lr子模块输出的信用概率,x表示样本信用数据,ω是最优参数向量,b是最优偏置值。

lr是信用评分领域常用的分类方法之一,也称对数几率回归。对于二分类问题,假设数据集有n个观测值,d={(x1,y1),(x2,y2),…,(xn,yn)},每个观测值x有d个属性描述,即xi=(xi1;xi2;…;xid),输出为yi∈{0,1},则预测函数模型将预测值进行二分类,定义为:

对于二分类,其分类概率可表示为:

由最大似然估计可知,联合概率l(ω,b)为:

其中,表示对第i个样本xi的预测值,yi表示xi的真实标签。

对数似然函数l(ω,b)和代价函数j(ω,b)分别为:

最大似然估计的目标为找到合适的ω和b,令每个样本属于其真实类别的概率越大越好即代价函数或损失函数越小越好。

优选的,所述lr子模块中,最优参数向量ω和最优偏置值b通过梯度下降算法优化得到,参数更新为:

其中α为步长即学习速率。

具体的,xgboost是一种迭代的决策树算法,将树模型复杂度作为正则项加到优化目标中,提升了算法效率,具有快速、高效和可扩展的特性,适用于处理分类问题。所述xgboost子模块输出的信用概率采用式ⅲ计算:

其中,表示xgboost子模块输出的信用概率,ft(xi)表示第t棵树,t表示树的总数量。

若使用平方误差作为损失函数,目标函数可改写为:

其中,是前t-1次迭代的预测结果,ft(xi)是第t次加入的预测函数。若不是平方误差,采用泰勒展开近似定义原始目标函数,去除常数项后,目标函数只依赖每个数据点在损失函数上的一阶导数和二阶导数:

其中,损失函数的一阶导数gi和二阶导数hi分别为

其次定义一棵树的复杂度为:

其中,γ为叶子结点的系数,t为叶子数量,λ为固定系数,||ω||2为叶子权重的l2范数。定义ij为叶子j的样本集,则目标函数可改写为:

可得到每个叶子的最优权重和目标函数分别为:

obj*可以看作是一个结构评分函数,用来衡量给定的叶子分数的合适程度。值越小证明它越适合数据,计算得到这两个值之后确定了最佳系数,通过下式可计算ft。

优选的,步骤3中根据集成分类模型输出的客户信用概率实数值根据sigmoid函数式ⅳ进行转化,统一为0到1的值:

其中,为各个子模块输出的客户信用概率实数值,为投票时的客户信用概率,

本实施例采用三个开源的信用数据集来验证所提模型的有效性。三个数据集来自uci机器学习库,分别是澳大利亚信用数据集、德国信用数据集和日本信用数据集,其中澳大利亚数据集有690个申请客户的信用数据,包括14个特征属性(6个数值特征,8个分类特征)和1个类别标签,德国数据集有1000个申请客户的信用数据,包括20个特征属性(7个数值特征,13个分类特征)和1个类别标签,日本数据集有690个申请客户的信用数据,包括15个特征属性(6个数值特征,9个分类特征)和1个类别标签,如性别、信用记录、支票账号状况、婚姻情况、工作情况、信贷目的、财产情况等。

评价实施例中本发明所提模型性能的指标有auc(roc曲线下面积)和准确度(acc)。auc为roc曲线下面积,综合考虑了灵敏度和特异度,其范围从0(无判别力)到1(完全判别力),越接近1分类效果越好。acc定义为预测正确的样本与测试总样本的比值,越接近1越好。

本文所使用的集成分类器为rnn+lr+xgboost,其中xgboost和rnn具有较多超参数,对于不同的数据集,rnn的超参数不尽相同。表1和表2分别描述了两种算法的超参数。本实施例中,rnn子模块采用如表1所示超参数设置:

表1

本实施例中,xgboost子模块采用如表1所示超参数,描述:

表2

图3为本发明所提模型与单分类器分别在三个数据集(澳大利亚、德国、日本)上的auc值折线图,从实验结果可看出,本发明所提模型的auc值最高。图4为本发明所提模型与单分类器分别在三个数据集(澳大利亚、德国、日本)上的acc值折线图,从实验结果可看出,本发明所提模型的acc值最高。

综上,本发明结合深度学习算法构建集成分类器,为金融机构提供了一种自动化信用评分系统,有效地克服了现有的信用评分系统的不足,实现了简便、精确、直观、高效的自动化信用分类。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 用于城市工程管理的工程信息显...
  • 城市工程管理平台的大型工程显...
  • ETL任务的处理方法、装置、...
  • 多源异构时空数据及其矢量可信...
  • 生成风资源数据报告的方法及系...
  • 基于智能合约的隐私数据查询方...
  • 针对高科技公司的深度技术追踪...
  • 针对特定群体的数据挖掘方法及...
  • 基于流程管理大数据的客户需求...
  • 大数据自由查询方法及装置与流...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

PHP网站源码深圳网站改版泉州营销网站多少钱银川百搜标王多少钱钦州关键词按天扣费哪家好盐田百度seo多少钱平顶山网站优化排名哪家好宿州SEO按天扣费价格青岛建网站报价龙华seo网站推广赤峰百姓网标王推广多少钱大芬百度网站优化公司山南优化推荐毕节英文网站建设哪家好达州SEO按效果付费哪家好商洛seo网站推广绍兴网站建设哪家好清远关键词按天计费公司长治英文网站建设价格金昌网站优化推广价格阜阳建站报价临沧关键词排名报价上饶网站推广方案报价茂名推广网站报价襄樊至尊标王报价邵阳网站优化推广推荐临沧百姓网标王推广推荐海北百度标王报价十堰SEO按天收费报价渭南seo网站推广多少钱松岗网站推广方案哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化