一种基于Ranknet和Lambdamart算法的搜索排序方法与流程

文档序号:19218075发布日期:2019-11-26 01:52阅读:1500来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于Ranknet和Lambdamart算法的搜索排序方法与流程

本发明属于人工智能学习技术领域,具体涉及一种基于ranknet和lambdamart算法的搜索排序方法。



背景技术:

随着计算机与网络科技水平的不断提高,互联网产生的数据量呈现出爆发式的增长,我们需要花费越来越多的精力去获取想要的信息,人们如何在信息大爆炸的时代里准确而高效的获取信息是值得研究的。传统的按照相关度排序和按照重要性排序只针对少数的简单特征,无法挖掘复杂情况下特征间的关联性,导致获取信息的准确率和效率低下。排序学习能够充分发现表征复杂信息的众多特征之间的关联性。近年中的研究发现,基于树的机器学习模型,如gbdt,结合集成学习,对于建立“排序学习”框架的搜索排序算法十分有效,lambdamart更是其中的佼佼者,被认为是最有效的方法之一,在不同的领域已经被证明是解决问题的一种有效手段。



技术实现要素:

本发明所要解决的技术问题是克服现有技术的不足,提供一种基于ranknet和lambdamart算法的搜索排序方法,将ranknet算法作为基础模型,学习一个排序函数,再将函数的输出作为lambdamart的初始函数,最终生成排序模型,可以有效提高搜索排序的迭代效率和准确率。

本发明提供一种基于ranknet和lambdamart算法的搜索排序方法,包括如下步骤:

步骤s1、由rankbet算法训练出基本模型,首先训练一个打分函数,根据打分函数计算文档的得分,通过文档的得分情况计算文档的偏序概率和真实概率,采用交叉熵作为损失函数来衡量偏序概率和真实概率的拟合程度,从而获取所有文档的总代价函数;

步骤s2、计算每个文档的梯度lambda和偏导,针对步骤s1中的损失函数对排序函数的偏导求导,再利用梯度下降法获取最佳参数;

步骤s3、利用lambdamart算法训练回归树;

步骤s4、将步骤s2中获取的梯度作用于lambdamart算法的gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值;

步骤s5、更新模型,根据学习率计算每个文档的得分。

作为本发明的进一步技术方案,步骤s1中,训练的打分函数为s=f(x;w),根据打分函数计算文档xi和xj为si=f(xi;w),sj=f(xj;w);根据得分计算二者的偏序概率,偏序概率为

pij为第i个样本排在第j个样本前面的概率,si和sj为文档xi和xj的得分,其真实概率为

采用交叉熵作为损失函数来衡量偏序概率pij对真实概率的拟合程度,损失函数为经简化为则可知所有文档对的总代价函数为其中,i表示所有文档对的集合,且每个文档对仅包含一次。

进一步的,步骤s2中,针对步骤s1中的损失函数cij,对排序函数中的ωk求导,然后利用梯度下降法来求得最佳参数其中,η为步长,代价c延负梯度方向变化继续分解,则由于带入得,

集合i中包含label不同的文档的集合,且每个文档只包含一次,即(ui,uj)和(uj,ui)等价,若只包含(ui,uj),则表示ui相关性大于uj的文档对,即sij=1,那么λi决定着第i个文档在迭代中的移动方向和幅度,此外,由于ndcg或err这样的评价指标是非连续的,故而在推导出的梯度上,加入这些评价指标,即:

其中,|δzij|为将ui和uj交换位置后,待优化指标的变化。

进一步的,步骤s3中,lambdamart算法中的mart即为gbdt,在gbdt的迭代中,若前一轮迭代获取的强学习器是ft-1(x),损失函数为l(y,ft-1(x)),则迭代的目标为获取一个回归树模型的弱学习器ht(x),让本轮的损失函数l(y,ft(x)=l(y,ft-1(x)+ht(x)))最小;每个模型的权重为其中εt为该模型在样本中的错误率,最终的模型为

进一步的,步骤s4中,将梯度应用于gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值,首先把训练模型作为变量,则直接使用梯度对模型求导:再使用牛顿法可得:其中,

进一步的,步骤s5中,更新模型,根据学习率计算每个文档的得分,文档的得分为:fk(xi)=fk-1(xi)+η∑lγlki(xi|∈rlk)。

与现有方案对比,本发明采用ranknet算法作为基础模型,学习一个排序函数,再将函数的输出作为lambdamart的初始函数,最终生成排序模型。可以有效提高搜索排序的迭代效率和准确率,此外可以解决当损失函数为凸函数时,为达到全局的最小值,学习率必须很小,迭代次数必须很大的问题,而且在减少迭代次数的情况下,模型效果却可以优于原始模型。

附图说明

图1为本发明的方法流程图。

具体实施方式

请参阅图1,本实施例提供一种基于ranknet和lambdamart算法的搜索排序方法,包括如下步骤:

步骤s1、由rankbet算法训练出基本模型,首先训练一个打分函数,根据打分函数计算文档的得分,通过文档的得分情况计算文档的偏序概率和真实概率,采用交叉熵作为损失函数来衡量偏序概率对真实概率的拟合程度,从而获取所有文档的总代价函数;

步骤s2、计算每个文档的梯度lambda和偏导,针对步骤s1中的损失函数对排序函数的偏导求导,再利用梯度下降法获取最佳参数;

步骤s3、利用lambdamart算法训练回归树;

步骤s4、将步骤s2中获取的梯度作用于lambdamart算法的gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值;

步骤s5、更新模型,根据学习率计算每个文档的得分。

训练的打分函数为s=f(x;w),根据打分函数计算文档xi和xj为si=f(xi;w),sj=f(xj;w);根据得分计算二者的偏序概率,偏序概率为

pij为第i个样本排在第j个样本前面的概率,si和sj为文档xi和xj的得分,其真实概率为

采用交叉熵作为损失函数衡量偏序概率pij对实概率的拟合程度,损失函数为经简化为则可知所有文档对的总代价函数为其中,i表示所有文档对的集合,且每个文档对仅包含一次。

步骤s2中,针对步骤s1中的损失函数cij,对排序函数中的ωk求导,然后利用梯度下降法来求得最佳参数其中,η为步长,代价c延负梯度方向变化继续分解,则由于带入得,

集合i中包含label不同的文档的集合,且每个文档只包含一次,即(ui,uj)和(uj,ui)等价,若只包含(ui,uj),则表示ui相关性大于uj的文档对,即sij=1,那么λi决定着第i个文档在迭代中的移动方向和幅度,此外,由于ndcg或err这样的评价指标是非连续的,故而在推导出的梯度上,加入这些评价指标,即:

其中,|δzij|为将ui和uj交换位置后,待优化指标的变化。

步骤s3中,lambdamart算法中的mart即为gbdt,在gbdt的迭代中,若前一轮迭代获取的强学习器是ft-1(x),损失函数为l(y,ft-1(x)),则迭代的目标为获取一个回归树模型的弱学习器ht(x),让本轮的损失函数l(y,ft(x)=l(y,ft-1(x)+ht(x)))最小;每个模型的权重为其中εt为该模型在样本中的错误率,最终的模型为

步骤s4中,将梯度应用于gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值,首先把训练模型作为变量,则直接使用梯度对模型求导:再使用牛顿法可得:其中,

步骤s5中,更新模型,根据学习率计算每个文档的得分,文档的得分为:fk(xi)=fk-1(xi)+η∑lγlki(xi|∈rlk)。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 基于可视化拖拽的业务流程配置...
  • 一种APP推荐方法、装置及设...
  • 协同可视数据推荐方法及装置与...
  • 一种资讯信息的多指标监控方法...
  • 一种智能的线索分析方法及系统...
  • 一种知识图谱实时查询解决方案...
  • 智慧社区内游泳池的自动监测方...
  • 一种电子证照目录管理系统及方...
  • 一种同构子图查询方法、装置、...
  • 一种分组Hilbert编码和...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
深度算法相关技术
  • 一种优化用户信用模型建模过程的方法及装置与流程
  • 结合深度信息的人脸检测方法、检测装置和电子装置与流程
  • 一种基于双目图像匹配获取目标深度信息的方法和系统与流程
  • 一种人脸深度跟踪装置及实现方法与流程
  • 图像处理方法和电子设备的制造方法
  • 一种器械式cpr按压深度算法
  • 基于人工智能的深度问答服务提供方法和装置的制造方法
  • 一种信息处理方法及电子设备的制作方法
  • 基于优化bp神经网络模型的单目红外图像深度估计方法
  • 基于svm模型的单目红外图像深度估计方法

PHP网站源码南联阿里店铺托管西乡关键词按天扣费观澜seo优化大浪网站设计模板龙华seo网站推广南联外贸网站设计深圳网站优化推广民治SEO按效果付费观澜网站优化推广坪地企业网站建设宝安网站优化按天扣费吉祥企业网站设计大运百度竞价坪地网站优化南澳关键词按天收费南联网站优化按天收费塘坑网站推广方案石岩百搜词包南联百度网站优化排名深圳网站优化按天收费西乡网站优化宝安网站设计模板光明企业网站建设丹竹头关键词按天计费观澜外贸网站制作双龙seo网站优化南山关键词按天收费福永网页制作宝安网站优化推广福田网站优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化