一种面向社交网络的用户关系分析方法与流程

文档序号:11864763阅读:569来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种面向社交网络的用户关系分析方法与流程
本发明属于社交网络分析领域,主要涉及社交网络行为动力学,以及最大熵模型,具体针对网络结构中的用户关系进行分析。
背景技术
:随着移动互联网技术和web技术的发展,在线社交网络成为了人们日常交流、娱乐、通信的重要工具。网络中用户的关系是在线社交网络的基础,极大的影响在线社会网络的形成和发展,因此对影响用户关系的因素进行分析变得尤为重要。现阶段,对于用户关系分析有不同方面的探索,其中最主要的是关于用户关系预测方面的研究。在基于相似性的用户关系预测中,普遍认为网络中的节点之间的相似度越高,用户之间建立关系的可能性也就越高。目前关于相似性的指标最常见的有共同邻居、Jaccard系数、Adamic/Adaic等。这些相似性指标通过获取网络中节点的局部信息,来用于用户关系预测,具有计算复杂度低的优点。但是,由于只获取网络的局部信息,因此预测精确度较低,另外与以往的用户关系预测方法不同,目前基于社交理论的用户关系预测中能够有效的提高用户关系预测的精度,并且非常适合在大型网络中应用。还有基于概率模型的用户关系分析中,通过建立概率模型获取最优参数集合,然后用于用户关系分析。虽然概率模型可以提高预测准确度,但是计算较为复杂,不适合大规模网络。以上的研究侧重于从不同的角度来进行用户关系分析,提高预测的精度而忽略了影响链接的各个因素之间权重的探索。然而在实际的网络中,这些因素对链接的形成占据着非常重要的作用。因此对每一个驱动因素进行详细分析量化用户关系的影响因素,找到链接形成的决定性因素显得尤为重要。技术实现要素:为了解决上述不足,对于用户之间相互建立关系这一行为,考虑到社交网络中用户关系建立的复杂的线上、线下动力学成因,本发明分别从个人兴趣、好友关系、社团驱动三个方面出发,提取影响链接建立的因素。针对多种影响因素难以量化以及权值分配不确定等问题,考虑到最大熵模型在选择特征时不需要依赖于特征之间的关联性等优点,以最大熵原理为基础构建用户关系分析模型,量化各个因素对用户关系建立的驱动强度,进一步挖掘影响链接建立的关键因素,进而对用户关系进行分析。本发明首先,针对用户关系建立的复杂动力学成因,分别从个人兴趣、好友关系、社团驱动三个方面提取影响用户关系的因素,并定义相应的影响因子函数,对各个因素进行分析。其次,考虑到最大熵的基本思想和方法是建立已知的事实之上,并且对未知的事实不做任何的干预和假设,而是尽可能地保持均匀分布,另外最大熵模型在选择特征时,不需要依赖于特征之间的关联性等优点。针对多种影响因素难以量化以及权值分配不确定等问题,本发明以最大熵原理为基础构建用户关系分析模型。该模型不仅能够量化各因素对链接建立的驱动强度大小,发现关键影响因素,而且可以对用户关系进行有效预测,进而展现出用户关系的发展态势。基于此,本发明采用的技术方案是:一种面向社交网络的用户关系分析方法,包括以下步骤:(1)利用网络爬虫或者通过各社交网站开放API平台获取原始数据。(2)提取用户的个人属性、用户的好友关系信息以及用户的社团信息,根据所提取的信息建立个人兴趣影响因子函数、好友关系影响因子函数和社团驱动影响因子函数。(3)以最大熵原理为基础构建用户关系分析模型,并对用户关系分析模型进行参数训练,获得最优参数集合。(4)根据最优参数集合以及用户关系分析模型对用户之间是否存在关系进行预测。具体地,所述步骤(1)中还包括去掉原始数据中属性缺失的、重复的以及无效的数据结点。在本发明的优选实施例中,所述提取用户的个人属性时,从清洗后的数据中构建初始用户关系网络G=(V,E),从初始网络G中抽取顶点对,若该顶点对存在好友关系则构成正样本,不存在好友关系的顶点对集合构建负样本;然后选取其中的一部分作为源网络Gs=(Vs,Es),从源网络Gs提取用户的个人属性信息。以上用户的个人属性包括用户的ID、用户名称、性别、描述、所在地以及精英用户。本发明的有益效果为:本方法首先从个人属性、好友关系、社团影响三个不同的方面提取特征,然后构建基于最大熵原理的用户关系分析模型。对驱动链接建立的影响因素进行分析,从而获取影响用户之间建立关系的主要驱动因素。另外本方法不仅可以量化各个影响因素的驱动力大小,从而消除了权值不确定的问题,最后我们还可以运行这些驱动力对用户关系进行有效预测。因此本发明方法有利于在社交网络中发现未知链接和未来链接,对了解用户行为方式以及网络结构的演化规律有着重要的意义。附图说明图1是本发明的系统框架图;图2是本发明用户关系分析模型示意图;图3是本发明模型训练流程示意图。具体实施方式为使本发明的目的、技术方案更加简明清晰,以下参照附图及实施例对本发明具体实施做进一步的阐述。如图1为本发明的系统框架图,表明本发明首先从网络中提取用户的个人属性数据,以及用户的关系数据。用户的关系数据既包括用户的粉丝又包括用户的关注信息。然后考虑到用户关系建立的复杂的线上线下动力学成因,分别从三个方面定义用户关系影响因子函数。经过用户关系分析模型的分析和处理,我们不仅可以挖掘到影响用户关系的关键因素,还可以对用户关系进行预测。根据以上叙述,我们做出如下定义:Definition1:初始用户关系网络G=(V,E)其中,G表示初始用户关系网络;V表示初始用户的集合,|V|=N即初始网络中用户的总数;表示初始用户群体中的用户关系边,即用户之间是否存在关系。Definition2:源用户关系网络Gs=(Vs,Es)其中,Gs表示源用户关系网络;Vs表示源用户的集合,|Vs|=Ns即源网络中用户的总数;表示源用户群体中的用户关系边,即用户之间是否存在关系。Definition3:目标用户关系网络Gt=(Vt,Et)其中,Gt表示目标用户关系网络;Vt表示目标用户的集合,|Vt|=Nt即目标网络中用户的总数;表示目标用户群体中的用户关系边,即用户之间是否存在关系。Definition4:全用户关系网络G′=(V′,E′)其中,G′表示全用户关系网络;V′表示所有用户的集合,|V′|=N′即用户的总数;表示全用户群体中的用户关系边,即用户之间是否存在关系。本发明的具体实施步骤主要包括数据获取、特征提取、模型构建、模型训练,模型预测等5个步骤。以下进行详细说明:S1:数据获取。S11:利用网络爬虫获取或者通过各社交网站开放API平台获取所需的原始数据。数据内容主要包括用户的个人属性信息、好友关系信息以及历史行为信息等。S12:数据清洗。获取原始数据之后,通过简单的数据清洗,去掉属性缺失的、重复的以及无效的数据结点等。S2:特征选取。S21:选取数据集。从清洗后的数据中构建初始用户关系网络G=(V,E),从初始网络G中抽取顶点对,若该顶点对存在好友关系则构成正样本,不存在好友关系的顶点对集合构建负样本。本发明选取相同数量的正样本和负样本作为实验初始数据,运用十折交叉验证随机选取其中的90%样本作为源网络Gs=(Vs,Es),剩下10%的样本作为目标网络Gt=(Vt,Et),从源网络Gs提取用户的属性信息。社交网络中丰富的属性信息对用户关系的形成也具有直接的影响力,一对用户越相似越有可能产生链接。属性特征主要是指用户个人的属性,包括用户的ID、用户名称、性别、描述、所在地、以及精英用户等。相对于普通用户来讲,精英用户总是会拥有更多的链接。本发明运用用户关系粉丝特征值来选取精英用户,将所得特征值排名前5%-10%的用户作为精英用户。其中,vi对于用户粉丝特征值fi(vi)计算如下:f(vi)=ϵ(Nvif-Nvim)+Nvim---(1)]]>其中,代表用户vi的粉丝数目,代表用户vi的互粉好友数目。ε表示可变参数,在本发明中选取ε=2,以缩小用户之间粉丝数量特征值的差距。为了便于描述,定义XI表示个人兴趣特征集合,对于任意的个人兴趣特征若用户vi和用户vj满足该特征,则反之为0。S22:提取用户的好友关系信息。在社交网络中,用户之间是否建立链接同时也受到来自网络结构的影响。根据社交平衡理论,如两个人拥有共同好友,那么他们之间建立链接的概率也就更高。因此,通过全用户关系网络G′=(V′,E′),计算用户之间的共同粉丝和关注数,作为影响链接建立的特征。为了便于描述,定义XU表示好友关系特征集合,对于任意的特征若用户vi和用户vj满足该特征,则反之为0。S23:提取用户的社团信息。社团也对用户之间链接的建立存在一定的影响,同属于一个社团的用户之间联系更加紧密,也更容易产生链接。因此,本发明运用社团分类算法CPM判断用户是否属于同一个社团,从而提取用户的社团特征。为了便于描述,定义XG表示社团特征集合,对于任意的社团特征若用户vi和用户vj满足该特征,则反之为0。S24:建立其相关因子函数。提取完以上三方面的各个属性信息后,本发明用相关因子函数来表示属性信息和用户关系的相关性。(1)个人兴趣影响因子函数fIi(xIi,yk)=xIi,xIi≠0∩yk=10,otherwise---(2)]]>其中,yk用来表示用户之间是否存在链接,如果存在,则yk=1,反之为0。表示个人兴趣方面的第i个特征,表示的是用户个人兴趣特征和用户关系的相关性,例如:表示用户之间的存在链接,并且满足个人兴趣特征中的第i个特征取值不为0。(2)好友关系影响因子函数fUi(xUi,yk)=xUi,xUi≠0∩yk=10,otherwise---(3)]]>其中,表示的是好友关系特征和用户关系的相关性。表示好友关系方面的第i个特征。(3)社团驱动影响因子函数fGi(xGi,yk)={xGi,xGi≠0∩yk=10,otherwise---(4)]]>其中,表示的是社团驱动特征和用户关系的相关性。表示社团驱动方面的第i个特征。根据以上定义,分别计算用户个人属性对其用户关系的影响用户好友关系对其影响备选用户所属社团对其影响S3:模型建立。如图2所示为用户关系分析模型示意图。通过从源网络Gs=(Vs,Es)中提取特征T={(x1,y1),(x2,y2),...xk,yk},(xk∈X,yk∈Y),其中,X表示影响用户关系的特征,xk表示第k个特征;Y表示所属类别,在这里表示是否存在链接,yk代表某一类别。S31:约束条件。其中,已知的约束条件为所有特征的条件概率的总和为1。约束条件1如下所示:Σyp(y|x)=1---(5)]]>其中p(y|x)是条件概率,表示的是在x特征出现的情况下,y出现的概率。另外对于影响因子函数fi(x,y),它相对于样本(x,y)联合分布概率的期望值为:Ep~(fi)=Σ(x,y)p~(x,y)fi(x,y)---(6)]]>影响因子函数fi(x,y)相对于模型条件概率p(y|x)的期望值为:Ep(fi)=Σ(x,y)p~(x)p(y|x)fi(x,y)---(7)]]>其中p(y|x)是要求的条件概率,是特征x的统计概率。因为我们限制在给定的数据集中,那么就可以假设这两个的期望值相等,得到约束条件2,即:Ep(fi)-Ep~(fi)=0---(8)]]>S31:模型求解。现在的问题转化为满足一组约束条件,求解最优解的问题。求解这个问题经典的方法就是拉格朗日乘子算法。本发明直接给出结论,因为我们通过个人属性、好友关系、社团驱动三方面来提取影响链接建立的特征,并定义了相关的影响因子函数。然后分别为各个影响因子函数定义参数集合θ=({α},{β},{γ})。所以条件概率p*(y|x)又可以表示为下面的形式:p*(y|x)=1Z(x)exp(ΣiKIαifIi(xIi,yk)+ΣiKUβifUi(xUi,yk)+ΣiKGγifGi(xGi,yk))---(9)]]>Z(x)=Σyexp(ΣiKIαifIi(xIi,yk)+ΣiKUβifUi(xUi,yk)+ΣiKGγifGi(xGi,yk))---(10)]]>其中Z(x)是归一化因子,确保概率为1。分别代表从个人兴趣、好友关系、社团驱动三个方面所定义的影响因子函数。kI、kU、kG分别代表每类特征的数目。αi、βi、γi代表各个影响因子函数的权值,即该特征对用户关系建立的驱动强度的大小。S4:模型训练。S41:如图3所示为参数训练流程图。首先输入网络:初始用户关系网络G=(V,E)以及全用户关系网络G′=(V′,E′)并初始化参数集合θ=({α},{β},{γ})。S42:通过源网络Gs=(Vs,Es)运用所定义的影响因子函数,分别统计出样本(x,y)的联合分布概率以及特征x的统计概率S43:条件概率如式(9)所示,但实际上很难找到一个解析解,一般采用基于梯度的数值优化算法进行求解,本发明采用GIS算法来进行求解。以参数集合{α}为例,可得到参数更新梯度η为:η=1clogFp~[fi(xIi,yk)]Fp[fi(xIi,yk)]---(11)]]>常数c是训练样本里最大的特征个数。分别代表经验分布的期望值和模型p(y|x)的期望值。S43:通过参数更新梯度η,对每一个参数更新。其中参数更新的公式如下所示:αnew=αold+η(12)S44:最后,判断是否收敛。收敛条件可以有不同的方法,本发明采用收敛方式为:每个参数的变化值都小于某个阈值。若收敛转到输出,如不收敛,带入更新后的参数集合,继续迭代直至收敛。S5:模型预测。影响因素驱动强度大小依据参数的变化而不同,通过运用模型学习算法所获取的最优参数集合θ*,可以定量反映出各个因素对用户关系建立的影响强度。因为用户关系的预测受到多种因素的影响,把这些影响因素组成向量X,然后运用已经训练好的模型,预测目标网络Gt=(Vt,Et)中的用户vi和用户vj产生链接的概率pij=p(y|x)。并且仅当pij的值大于指定阈值ξ时,y取值1;否则0。y=1,p(y|x)≥ξ0,p(y|x)<ξ---(13)]]>本发明针对在线社会网络中用户关系建立的特点,结合最大熵的原理和方法,提出基于最大熵原理的用户关系分析模型。模型考虑到不同的因素对用户关系建立的影响强度不一样,挖掘在用户关系建立过程中各因素的影响强度,从而发现影响用户关系的关键因素,并且利用驱动强度,对用户关系进行预测。应当指出上述具体的实施例,可以使本领域的技术人员和读者更全面理解本发明创造的实施方法,应该被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。因此,尽管本发明说明书参照附图和实施例对本发明创造已经进行了详细的说明,但是,本领域的技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。当前第1页1 2 3 
完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 一种短文本新词发现方法与流程
  • 一种基于用户画像的短文本分类...
  • 一种基于分布式数据仓库的社保...
  • 一种分层模块化的数据采集方法...
  • 一种基于XML实现价格策略字...
  • 一种社保大数据分布式预处理方...
  • 一种执行读写分离的方法、装置...
  • 查询方法、查询装置及移动终端...
  • 一种网络培训系统的制作方法与...
  • 用户属性预测方法及装置与流程
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
用户分析方法相关技术
  • 一种电信欺诈用户分析方法及装置的制造方法
  • 运营商用户号码采集方法及装置、用户分析方法及系统的制作方法
  • 用户移动化程度的检测方法及应用方法
  • 地铁移动用户感知优化分析方法及系统的制作方法
  • 高速铁路移动用户感知优化分析方法及系统的制作方法
  • 基于视频特征及用户信息的收视分析方法及系统的制作方法
  • 一种基于用户信令的网络资源的分析方法及系统的制作方法
  • 基于云端的用户行为实时分析方法
  • 移动终端的用户交互行为的收集分析方法
  • 面向用户视图的过程依赖关系分析方法
2016社交媒体用户报告相关技术
  • 用于以媒体为中心并且可货币化的社交联网的系统和方法
  • 基于社交内容的用户分组方法
  • 触发媒体内容项目的用户通知的制作方法
  • 用于对社交媒体的用户分类的方法、计算机程序和计算机的制作方法
  • 根据社交交互提供特定于用户的恶意软件评估的制作方法
  • 用于媒体体验社交界面的系统和方法
  • 一种基于社交化媒体的交流通信方法、系统及终端的制作方法
  • 基于预测的社交媒体网络信息采集的系统和方法
  • 基于对邻近一个或多个用户的媒体输出设备的动态发现的自组织(ad-hoc)媒体呈现的制作方法
  • 使用确认指示来提高社交网络中的用户参与度的制作方法
社交软件用户数量排名相关技术
  • 用于在社交网络中提供关于社交网络用户的信息的方法和设备的制作方法
  • 一种社交类应用中用户个人信息配置方法及装置制造方法
  • 基于在线社交网络的帮助用户给产品评分的方法
  • 用户对网络社交工具的倾向性的评估方法和系统的制作方法
  • 一种社交网络用户虚实映射方法和系统的制作方法
  • 用于向社交网络中的用户推荐信息的方法和装置制造方法
  • 用于向社交网络中的用户推荐信息的方法和装置制造方法
  • 基于位置和社交信息为用户提供相关通知的制作方法
  • 在社交网络系统中对用户生成内容的处理方法和装置的制作方法
  • 用于在查看型社交网络中向用户提供推荐的系统和方法
社交网络用户关系图相关技术
  • 一种社交网络中建立好友关系的方法与流程
  • 一种社交网络中社交关系的扩展方法及系统与流程
  • 社交网络中的用户推荐方法和系统与流程
  • 一种面向社交网络的用户关系分析方法与流程
  • 一种基于用户特征的社交网络访问控制方法与流程
  • 社交网络中社交关系的扩展方法和系统与流程
  • 一种基于统计特征的社交网络用户关系的计算方法与流程
  • 一种社交网络中的基于朋友关系传播的朋友推荐方法与流程
  • 社交网络系统和在其中显示用户信息的方法与流程
  • 促进社交网络用户之间的交互的制造方法与工艺
面向对象分析方法相关技术
  • 面向对象的母线保护设置方法
  • 一种面向电网调度的智能告警分析方法
  • 一种面向电网的事故潮流变化分析方法
  • 面向多元数据的自动关联方法
  • 面向用户视图的过程依赖关系分析方法
  • 一种应用于移动通信系统中的对象关联关系分析方法及系统的制作方法
  • 基于面向对象的分布式交互仿真应用程序的开发方法
  • 一种面向服务体系的基于面向对象的权限管理方法
  • 一种面向对象的并行碰撞检测方法、装置及系统的制作方法
  • 一种面向中文查询句的三级查询目标分析方法
面向问题域的分析方法相关技术
  • 一种面向电网的事故潮流变化分析方法
  • 狭长图形的srp分析方法
  • 基于数据流函数调用路径的变更影响域分析方法及系统的制作方法
  • 面向用户视图的过程依赖关系分析方法
  • 一种面向中文查询句的三级查询目标分析方法
  • 逻辑线路的点距分析方法
  • 一种面向组织的问题分析方法
  • 一种面向组织的目标分析方法
  • 一种面向微博短文本的情感分析方法
  • Rna的分析方法
2017社交媒体用户报告相关技术
  • 社交应用软件的用户匹配方法和装置的制造方法
  • 触发媒体内容项目的用户通知的制作方法
  • 用于对社交媒体的用户分类的方法、计算机程序和计算机的制作方法
  • 根据社交交互提供特定于用户的恶意软件评估的制作方法
  • 基于对邻近一个或多个用户的媒体输出设备的动态发现的自组织(ad-hoc)媒体呈现的制作方法
  • 使用确认指示来提高社交网络中的用户参与度的制作方法
  • 用于生成和显示通过社交网络的用户内容的视觉流的技术的制作方法
  • 媒体流的转移方法和用户设备的制作方法
  • 用于产生媒体观看成就的用户观看数据收集的制作方法
  • 用于向社交网络中的用户提醒好友位置变化的方法和设备的制作方法

PHP网站源码西乡网站设计永湖建网站沙井外贸网站建设横岗优化坂田网站设计松岗网站优化推广盐田百度竞价同乐外贸网站设计大浪SEO按天收费南澳设计网站石岩SEO按天扣费荷坳网站优化永湖设计网站深圳优秀网站设计坪地网站推广沙井百度seo南山SEO按天计费双龙外贸网站建设平湖网站搜索优化南澳阿里店铺运营大芬网站改版福田网站优化排名福田百度关键词包年推广坑梓品牌网站设计观澜网站推广方案大鹏建站吉祥网站改版盐田百度竞价大芬百姓网标王罗湖seo网站推广歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化