一种实体和实体属性动态聚合构造人物画像的方法及设备与流程

文档序号:17065353发布日期:2019-03-08 22:52阅读:314来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种实体和实体属性动态聚合构造人物画像的方法及设备与流程

本发明涉及一种实体和实体属性动态聚合构造人物画像的方法及设备。



背景技术:

在大数据中人物画像又称用户画像(userprofile),作为一种勾画目标人物、联系人物诉求与设计方向的有效工具,人物画像在各个领域得到了广泛应用。通过人物画像可以抽象出一个人物的信息全貌,通过一系列的特征属性来对人物进行标签化,以此来对人物的行为偏好进行直观的认识。

构建人物画像需对人物的特征属性数据进行收集、汇聚、融合;数据来源除了包括人口属性等的静态信息数据外,需要从人物平时的行为数据中获得即动态行为数据,这部分可以是结构化数据或半结构化数据,从中获取人物相关的实体及实体属性;人物的特征属性可以是直接获取到的实体属性标签化后的属性、也可以是通过对行为数据进行统计分析获取到的结果标签化后的属性。面对繁多杂乱的人物特征属性数据需要先将和人物有关的实体归类聚合到该人物的标签体系上的某一标签。在实体和实体属性归类上,传统的做法是通过人工进行业务顺理,归类聚合同一实体及相应的实体属性,这是一项工作量巨大的任务,而且工作效率低下。



技术实现要素:

本发明要解决的技术问题,在于提供一种实体和实体属性动态聚合构造人物画像的方法,解决工作量巨大,工作效率低下的问题。

本发明之一是这样实现的:一种实体和属性动态聚合构造人物画像的方法,包括:

步骤1、在标签冷启动阶段,构建初始标签体系;

步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;

步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;

步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;

步骤5、计算每个实体的特征属性权重以及相应标签权重;

步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。

进一步地,所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;

异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,

计算第j项标签下第i个月占该标签的比重:

计算第j项标签的熵值:

其中k=1/ln(n),满足ej≥0;

计算信息熵冗余度:dj=1-ej;

计算各项标签的权值:

进一步地,所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将si代入xij中,按照标签权重计算方法计算得到特征属性权重。

进一步地,所述实体抽取为基于bilstm+crf的方法进行抽取。

本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:

步骤1、在标签冷启动阶段,构建初始标签体系;

步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;

步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;

步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;

步骤5、计算每个实体的特征属性权重以及相应标签权重;

步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。

进一步地,所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;

异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,

计算第j项标签下第i个月占该标签的比重:

计算第j项标签的熵值:

其中k=1/ln(n),满足ej≥0;

计算信息熵冗余度:dj=1-ej;

计算各项标签的权值:

进一步地,所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将si代入xij中,按照标签权重计算方法计算得到特征属性权重。

进一步地,所述实体抽取为基于bilstm+crf的方法进行抽取。

本发明具有如下优点:在从人物动态行为数据中抽取出的实体并进行归类统计的过程中,通过句子相似度进行实体类型分类,可以有效的加快实体分类的效率。特征属性和标签的动态增加也可以更好的描述人物画像,挖掘出人物更多特征。另外,通过标签以及特征属性的权重的计算可以更好从定量的角度的展示出人物特征以及偏好。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法执行流程图。

具体实施方式

本发明实体和属性动态聚合构造人物画像的方法,包括:

步骤1、在标签冷启动阶段,构建初始标签体系;

步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性,所述实体抽取为基于bilstm+crf的方法进行抽取;

步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;

步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;

步骤5、计算每个实体的特征属性权重以及相应标签权重,

所述标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;

异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,

计算第j项标签下第i个月占该标签的比重:

计算第j项标签的熵值:

其中k=1/ln(n),满足ej≥0;

计算信息熵冗余度:dj=1-ej;

计算各项标签的权值:

所述特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将si代入xij中,按照标签权重计算方法计算得到特征属性权重;

步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。

本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:

步骤1、在标签冷启动阶段,构建初始标签体系;

步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性,所述实体抽取为基于bilstm+crf的方法进行抽取;

步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;

步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;

步骤5、计算每个实体的特征属性权重以及相应标签权重,

所述标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;

异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,

计算第j项标签下第i个月占该标签的比重:

计算第j项标签的熵值:

其中k=1/ln(n),满足ej≥0;

计算信息熵冗余度:dj=1-ej;

计算各项标签的权值:

所述特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将si代入xij中,按照标签权重计算方法计算得到特征属性权重;

步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。

1.对人物相关的动态行为数据进行实体抽取,抽取出在某一时间点产生关系的实体(单一时间的实体是为了统计时间段内的实体数量)。

1.1.记录数据可以是结构化的数据和半结构化的数据,这些数据中记录了人物在某一时刻的某一行为,如xx在xx时间,在xx地方消费了xx商品,价格xx元。例子里的实体指代的就是所关注的某种商品。

2.构建初始的标签体系。

3.实体抽取。目前实体抽取的方法中深度学习的方法有着较好的精确度,而且相对于传统的序列标注的方法,如隐马尔可夫模型和条件随机场模型,深度学习不需要构建特征模板。因而,实体抽取基于bilstm+crf的方法进行抽取。

4.实体归类(将实体归纳到某个指标中。需要统计某一指标内实体的数量,因而需要进行归类)。按照各个维度的特征属性中的细分标签通过相似度计算匹配出相关实体,将实体按照标签进行归类(如特征属性为消费偏好内有奢侈品这一指标,像lv、名贵珠宝这些品牌实体都是属于奢侈品范畴的,就是通过计算品牌实体和奢侈品进行相似度分析其是否奢侈品)。这个步骤可以通过word2vec词嵌入向量实现。而这一步的准确率很大程度上要求在训练word2vec词嵌入模型的时候需要覆盖范围较广的语料库进行训练。

4.1.训练word2vec词嵌入模型需要进行分词与去停用词,将文本的分词结果存储在一个列表中,一行就代表一个文本。可以自定义训练的词特征维度数量。

4.2.词的相似度可以直接通过训练好的word2vec模型进行相似度比较,以python3为例,model.similarity(‘足球’,’运动’)则可以直接比较两个词的相似程度。可以设置阈值,如果相似程度超过该阈值并且相似度的值最大则认为是这个类别,这个阈值可设为0.5。

5.按时间段对标签(标签是指特征属性内的细分维度。比如某一特征属性为爱好,那么爱好内的运动、电影、绘画等都是指标)内的实体进行统计,统计标签所属实体出现的数量(即为xij)并进行存储。时间段可选取一年。

6.动态增加特征属性以及标签。

6.1标签的动态增加。设置相似度阈值,实体和标签的相似度高于该阈值则可归到特征属性的某个标签中,而具体归于哪个标签由相似度最高的标签决定。如果和特征属性的所有标签的相似度均低于相似度阈值,则可重新划分一个标签。可将不相似的实体进行重新聚类,根据聚类的结果对标签进行重新命名,并通过相似度计算所属特征属性。

6.2特征属性的增加可以采取6.1同样的做法。

6.3特征属性和标签的数量不能无限扩充,可根据实际业务需要进行限制。

7.计算特征属性和标签权重。

7.1.熵值法计算步骤:假设某一个人一年12个月,在某一个特征属性下有m个标签数据,则xij为第i个月第j个标签的数值。

7.2.标签的归一化处理:异质标签同质化,由于各项标签的计量单位并不统一,因此在用它们计算综合标签前,先要对它们进行标准化处理,即把标签的绝对值转化为相对值,并令xij=|xij|,从而解决各项不同质标签值的同质化问题。而且,由于正向标签和负向标签数值代表的含义不同(正向标签数值越高越好,负向标签数值越低越好),因此,对于高低标签我们用不同的算法进行数据标准化处理。

7.3.计算第j项标签下第i个月占该标签的比重:

7.4.计算第j项标签的熵值:

其中k=1/ln(n),满足ej≥0

7.5.计算信息熵冗余度:

dj=1-ej

7.6.计算各项标签的权值:

7.7.计算得到该特征属性下的各个月份的综合得分:

7.8.将si代入xij中,按照步骤7.2至7.6进行计算每个特征属性的权重。

8.构成人物标签的就是各个特征属性,通过各个特征属性以及标签的权重绘制人物画像。可通过图谱对人物画像进行可视化,权重大的特征属性或者标签则图形大些,这样可以很直观的观察人物倾向偏好。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 分类模型的处理方法、装置、电...
  • 图像分类方法、装置、电子设备...
  • 一种基于标签一致性约束与拉伸...
  • 一种分布式融合结构中的强跟踪...
  • 一种视觉传感器网络多目标跟踪...
  • 一种图像自动分割的方法、装置...
  • 一种结合形态学分割和SVM的...
  • 一种基于Adaboost和欠...
  • 双层车牌识别方法、装置、计算...
  • 一种基于低秩约束图谱学习的无...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
构造实体几何相关技术
  • 密封构造体的制作方法
  • 密封构造体的制作方法
  • 密封构造体的制作方法
  • 密封构造体的制作方法
  • 连接构造体的制作方法
  • 支撑构造体的制作方法
  • 连接构造体的制作方法
  • 绝缘构造体的制作方法
  • 安装构造体的制作方法
  • 安装构造体及集合线缆的制作方法

PHP网站源码丹竹头网站优化按天计费坪山百度网站优化排名广州百度竞价广州网站搜索优化光明网站优化推广布吉网站优化排名龙岗关键词按天计费盐田百度爱采购福田网站优化按天扣费永湖关键词排名包年推广布吉百度爱采购福永百姓网标王民治网站开发坂田百搜标王荷坳建网站横岗外贸网站制作龙华SEO按天扣费横岗网站关键词优化大运网站改版坑梓网站制作横岗优秀网站设计布吉网站建设设计坪地关键词按天扣费同乐网站搜索优化南澳优秀网站设计坪山企业网站改版广州网站设计平湖网站排名优化坂田网站设计坪山网页设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化