一种基于bert的文本多意图识别方法与流程

文档序号:20769052发布日期:2020-05-15 19:24阅读:3212来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于bert的文本多意图识别方法与流程

本发明涉及医美领域、自然语言处理技术领域,尤其是一种基于bert的文本多意图识别方法。



背景技术:

医疗仿真营销机器人的回复机制是,依据访客问题的和项目进行答复。实际运行中,文本常常存在歧义,或者文本本身确实存在多种意图,导致无法准确选择唯一的类别。另一方面,在制定智能对话系统等领域确实存在着对文本多意图识别的需求,需要根据文本所包含不同的意图来定制综合回复。因此,文本的多意图识别问题成了急需解决的问题。

解决文本多意图识别的问题,一般有人工标注方法和机器标注方法。人工标注方法即由标注人员逐条读取语料然后理解其中的多个含义并进行标注。人工标注的优点是稳健,准确率相对较高,但是存在效率低下,耗费人力和时间资源的问题。如果是由多人分工进行标注,还可能出现由于标注人员理解能力差别导致的系统性错误。若使用机器进行标注,也存在以下几个问题:1.机器学习模型只能给出正确率较高的最优解,难以输出次优解(其他意图),因此只适合进行单意图识别;2.利用深度学习模型进行多意图的标注可以解决输出多意图的问题,但是需要大量的均衡的多意图数据进行训练,并且难以保证正确率。



技术实现要素:

为解决现有技术中存在的问题,本发明是基于在现有的文本单意图识别模型的基础上进行改进,利用bert、lightgbm模型进行主意图识别并根据马氏距离对文本距离进行二次匹配,从而实现文本多意图的输出。提出了一种基于bert的文本多意图识别方法。

具体如下:

一种基于bert的文本多意图识别方法,包括以下步骤:

s1:获取待识别文本并进行去重和删除停用词,得到训练语料;

s2:获取句向量;

s3:利用lightgbm模型训练用于识别意图的的句向量模型,得到意图类别,输出所有的主意图;

s4:选取标准向量;

s5:计算标准向量的马氏距离,输出子类别意图。

优选的,步骤s2进一步为:搭建bert生成embeddeding服务bert-as-service,输入训练语料到bert-as-service中,获取句子的句向量。

优选的,步骤s4进一步为:分别计算同一主意图的所有文本在该类意图文本中出现的频率,以出现频率最高的文本的句向量为该类文本的标准向量。

优选的,步骤s5进一步为:计算每个文本到所有意图类别标准向量的马氏距离,得到包含n个距离值的集合,选择集合中绝对值最小的k个数值所对应的意图类别作为作为文本的子类别;其中,n为意图类别数,k<n。

优选的,所述标准向量还可以通过计算句向量平均值或经验法得到。

优选的,步骤s1采用etl实现。

与现有技术相比较,本发明具有以下优点:

1.利用集成学习高效准确的优点,在其基础上进行改进提供了一种新的高精度的文本多意图识别方法。

2.在确保文本主意图正确的前提下,输出文本最有可能包含的子意图。

3.在选取意图类别标注向量时,以类意图文本中出现频率最高的文本的句向量作为该类文本的标准向量在实际应用中具有更高的准确率。

4.利用bert获取句向量,使得在预测结果在语义和泛化能力上得到大幅提升。

附图说明

图1是本发明基于bert的文本多意图识别方法的流程图。

具体实施方式

如图1所示为本发明一种基于bert的文本多意图识别方法的流程图,本方法在现有的文本单意图识别模型的基础上进行改进,利用bert、lightgbm模型进行主意图识别并根据马氏距离对文本距离进行二次匹配,从而实现文本多意图的输出。具体如下:

涉及的内核算法包括lightgbm,bert,马氏距离;其中,

lightgbm是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。基于boosting算法所产生的工具有gbdt、adaboost、xgboost等。微软dmtk(分布式机器学习工具包)团队在github上开源了性能超越其他boosting工具的lightgbm,基于histogram的决策树算法带深度限制的leaf-wise的叶子生长策略直方图做差加速直接支持类别特征(categoricalfeature)cache命中率优化基于直方图的稀疏特征优化多线程优化下面主要介绍histogram算法、带深度限制的leaf-wise的叶子生长策略和直方图做差加速。

马氏距离(mahalanobisdistance)是由印度统计学家马哈拉诺比斯(p.c.mahalanobis)提出的,通过计算两个未知量的协方差距离,从而实现对未知样本之间相似度的对比。马氏距离相较于欧氏距离的优点是量纲无关,即两点之间的马氏距离与原始数据的测量单位无关,并且能够排除变量之间的相关性的干扰。因此马氏距离可以很好的避免文本转化为向量后不同维度之间的相关性带来的干扰。马氏距离的算法如下:

设有向量空间{x1,x2,……,xn},则xi到xj的马氏距离计算公式为

谷歌ai团队发布的bert模型,在nlp业内引起巨大反响,认为是nlp领域里程碑式的进步。bert模型在机器阅读理解顶级水平测试squad1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同nlp测试中创出最佳成绩,包括将glue基准推至80.4%(绝对改进7.6%),multinli准确度达到86.7%(绝对改进率5.6%)等。bert的创新点在于它将双向transformer用于语言模型,之前的模型是从左向右输入一个文本序列,或者将left-to-right和right-to-left的训练结合起来。实验的结果表明,双向训练的语言模型对语境的理解会比单向的语言模型更深刻。

一种基于bert的文本多意图识别方法,包括:

1)对训练语料进行etl,即对训练语料进行去重、删除停用词。

2)搭建bert生成embeddeding服务bert-as-service,输入训练语料到bert-as-service中,获取该句子的句向量。

3)以步骤2)中输出的句向量为训练数据,利用lightgbm模型训练高质量的单意图输出模型,并输出所有训练语料的主意图。

4)分别计算属于同一主意图的所有文本在该类意图文本中出现的频率,以出现频率最高的文本的句向量作为该类文本的标准向量。除此之外,标准向量的选取方法还可以通过计算句向量平均值、经验法等其他方法确认。

5)计算每个文本到所有意图类别标准向量的马氏距离,得到包含n个距离值的集合(n为意图类别数),选取集合中绝对值最小的k个(k<n)数值所对应的意图类别(主意图除外)作为文本的子类别。

上述实施例中的实施方案可以进一步组合或者替换,且实施例仅仅是对本发明的优选实施例进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中专业技术人员对本发明的技术方案作出的各种变化和改进,均属于本发明的保护范围。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 文本的查询方法、文本查询装置...
  • 包括触觉反馈结构和对应的虚拟...
  • 一种数据库查询语句的生成方法...
  • 用于电子打印装置的可移除按钮...
  • 敏感词检测方法、装置、终端设...
  • 操作输入装置的制作方法
  • 操作输入装置的制作方法
  • 情报知识融合系统及方法与流程
  • 输入控制装置、输入装置、以及...
  • 一种国标模型到军标模型的矢量...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

PHP网站源码福州外贸网站制作聊城百度竞价多少钱横岗建网站价格厦门关键词排名包年推广多少钱松岗英文网站建设价格达州建设网站哪家好临沂百度网站优化排名公司哈尔滨seo优化吴忠seo网站优化多少钱盘锦推广网站南阳网站设计模板公司潜江网站排名优化推荐玉溪推广网站价格柳州SEO按效果付费价格湛江建设网站多少钱锦州百搜标王哪家好阳泉网站改版推荐南充关键词按天扣费哪家好上饶百度竞价包年推广报价淄博优秀网站设计价格贺州外贸网站设计公司那曲网站推广系统报价朔州关键词按天收费推荐福永关键词按天计费哪家好保山网站优化推荐泉州网站推广系统报价红河营销型网站建设推荐鹰潭seo优化哪家好湘潭百度标王价格曲靖优秀网站设计报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化