一种基于混合式迁移学习的命名实体识别方法

文档序号:27972238发布日期:2021-12-14 22:33阅读:246来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于混合式迁移学习的命名实体识别方法

1.本发明涉及命名实体识别技术领域,具体为一种基于混合式迁移学习的命名实体识别方法。


背景技术:

2.随着深度学习成为机器学习的新领域,不少学者尝试使用深度学习技术来解决命名实体识别问题。尽管基于深度学习的命名实体识别方法取得了较好的效果,但是在实际应用中,获取足够的训练数据是非常困难的,训练数据的匮乏会导致深度学习的学习效果不佳。
3.而迁移学习能够将已经学习过的知识迁移并引用到新的问题中,目的是利用已经在大量数据中学好的知识来提高目标任务的性能,其已成为解决数据集规模较小这一问题的重要方法。传统的迁移学习方法分为基于实例的迁移学习、基于特征的迁移学习和基于模型的迁移学习等三类,常用于解决样本数量过少导致模型在训练过程中出现过拟合的现象。
4.但是在一定程度上会出现负迁移现象,还不能很好地适应文本域的变化,并且会出现数据集中训练集和测试集分布不一致的问题。


技术实现要素:

5.本发明的目的在于提供一种基于混合式迁移学习的命名实体识别方法,以解决因训练数据的匮乏导致深度学习的学习效果不佳的问题,利用传统的迁移学习在一定程度上会出现负迁移现象,还不能很好地适应文本域的变化,并且会出现数据集中训练集和测试集分布不一致的问题。
6.为实现上述目的,本发明提供如下技术方案:一种基于混合式迁移学习的命名实体识别方法,包括以下步骤:
7.(1)数据预处理
8.获取源域数据集与目标域数据集(m,n分别表示源域数据集和目标域数据集的样例数,m>n),获取数据集后进行清洗、整理,使用jieba对文本进行分词,用word2vec将每个样本转换成词向量样本。
9.(2)实例迁移
10.针对每一个目标域数据集样本,计算与源域数据集中所有样本在不同度量下的相似度距离d∈r
n
×
m
×
j
(j为选取的相似度距离度量方法种类),通过数据引力计算得到最终权重值p∈r
n
×
m
×
j
,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本t
k
,将其迁移至目标域数据集中得到扩充的目标域数据集t
trans
=t∪t
k

11.(3)模型预训练
12.使用源域数据集多次训练bilstm

crf模型,选取性能最好的参数w并保留。
13.(4)模型迁移
14.构建新的bilstm

crf模型,用预训练模型保留的参数w做参数初始化;用扩充后的目标域数据集t
trans
训练新的bi

lstm

crf模型,通过损失函数迭代优化模型,w参与网络模型的更新迭代,并不断调整超参数。
15.进一步的,所述步骤(1)中,向量样本的向量维度选取100。
16.与现有技术相比,本发明的有益效果是:
17.1、本发明通过在bilstm

crf模型中引入两种迁移学习方式:实例迁移和模型迁移,解决命名实体识别领域中深度学习方法因训练数据匮乏导致的效果不佳的问题;
18.mt

ner方法的实例迁移部分中,通过计算源域样本相对于目标域样本的相似度来权衡样本之间的权值大小,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本。
19.mt

ner算法的模型迁移部分中,首先利用大规模的源域样本来训练bilstm

crf模型,得到性能较优的预训练模型,保存其参数特征,然后使用经过实例迁移扩充后的新目标域数据作为训练数据,利用预训练模型的参数初始化新的bilstm

crf模型,采用finetune技术调整参数,并在损失函数中引入数据分布自适应项。
20.mt

ner算法混合两种迁移学习,能够更好地将源域中学习到的知识迁移至目标域中,实例迁移中最佳迁移数的设定能够动态地得到迁移效果的反馈,可以防止一定程度的负迁移现象;模型迁移中使用了finetune技术,能够帮助模型适应文本域的变化,并且数据分布自适应的设定能够解决数据集中训练集和测试集分布不一致的问题。
21.2、混合了样本迁移和模型迁移,以解决中文命名实体识别领域样本不足的问题,同时使用最大均值差异构建适应层以解决数据分布不一致的问题,实验过程中通过动态的选择超参数能够在一定程度上降低算法的负迁移现象。
附图说明
22.图1为本发明方法流程示意图;
23.图2为本发明bilstm

crf框架图。
具体实施方式
24.在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
25.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
26.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.请参阅图1

2,本发明提供一种技术方案:一种基于混合式迁移学习的命名实体识别方法,包括以下步骤:
28.(1)数据预处理
29.获取源域数据集与目标域数据集(m,n分别表示源域数据集和目标域数据集的样例数,m>n),获取数据集后进行清洗、整理,使用jieba对文本进行分词,用word2vec将每个样本转换成词向量样本。
30.(2)实例迁移
31.针对每一个目标域数据集样本计算与源域数据集中所有样本在不同度量下的相似度距离d∈r
n
×
m
×
j
(j为选取的相似度距离度量方法种类),通过数据引力计算得到最终权重值p∈r
n
×
m
×
j
,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本t
k
,将其迁移至目标域数据集中得到扩充的目标域数据集t
trans
=t∪t
k

32.(3)模型预训练
33.使用源域数据集多次训练bilstm

crf模型,选取性能最好的参数w并保留。
34.(4)模型迁移
35.构建新的bilstm

crf模型,用预训练模型保留的参数w做参数初始化;用扩充后的目标域数据集t
trans
训练新的bi

lstm

crf模型,通过损失函数迭代优化模型,w参与网络模型的更新迭代,并不断调整超参数。
36.步骤(1)中,向量样本的向量维度选取100
37.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 图像渲染方法、装置、电子设备...
  • 基于内存管理的图像检索方法、...
  • 数据交易权限控制方法、装置和...
  • 核反应堆监测方法及系统
  • 一种疲劳驾驶预警系统的验证方...
  • 一种用于提取人体骨骼特征的模...
  • 基于车载摄像头的汽车碰撞预测...
  • 代码编译器、代码编译方法、代...
  • 一种自助终端自动化测试的方法...
  • 动作识别方法、装置、设备及存...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

PHP网站源码长沙百度竞价哪家好安顺网站优化排名潍坊百搜标王报价临沧SEO按天计费价格恩施网站优化按天扣费公司温州SEO按效果付费价格锦州百度标王公司潮州网站排名优化哪家好焦作seo优化霍邱seo排名价格开封网站搜索优化玉溪网站推广系统报价沧州SEO按天收费价格株洲网站seo优化报价网站优化按天计费哪家好拉萨关键词排名包年推广公司唐山关键词排名多少钱许昌建站多少钱金华关键词按天计费推荐吉安百度竞价哪家好阜新至尊标王随州营销型网站建设报价安顺SEO按效果付费公司潜江seo优化价格佛山网站建设六安网站seo优化抚顺推广网站哪家好金华seo优化价格唐山至尊标王公司开封推广网站歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化