多领域词典自动构建方法与流程

文档序号:11918980阅读:600来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
多领域词典自动构建方法与流程

本发明自然语言处理领域,特别涉及多领域词典自动构建方法。



背景技术:

随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息,或判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,可以对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。

基于词典的分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供多领域词典自动构建方法,在初始文本集中通过textrank方法自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的对应领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中。

为了实现上述发明目的,本发明提供了以下技术方案:多领域词典自动构建方法,包含以下实现步骤:

(1)构建初始文本集;

(2)提取出初始文本集中各文本的关键词;

(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;

(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;

(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;

(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:

(3-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(3-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。

作为一种优选,所述步骤(4)中,各领域所选取的种子词的个数为50-200个。

进一步的,所述步骤(4)顺序可移到所述步骤(1)、步骤(2)和,或者步骤(3)之前。

作为一种优选,所述步骤(5)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。

作为一种优选:所述步骤(6)中候选词与种子词的关联度计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。

与现有技术相比,本发明的有益效果:本发明提供多领域词典自动构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;构建M个领域,选取各领域的种子词,次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。词典构建的准确性更强,构建效率更高。本发明方法种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本发明方法所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。

此外本发明方法在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具,也可以为某一具体分析提供更多分析维度,使得分析的视角更加全面,分析的结果更加准确。

附图说明:

图1为本领域词典的构建方法的实现步骤图。

图2为本领域词构建方法步骤(6)的实现过程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

提供多领域词典自动构建方法,提供多领域词典自动构建方法,在初始文本集中通过textrank方法自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的对应领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中。本发明方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;此外本发明方法在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具,也可以为某一具体分析提供更多分析维度,使得分析的视角更加全面,分析的结果更加准确。在文本分析和自然语言处理领域有广泛的应用前景。

为了实现上述发明目的,本发明提供了以下技术方案:多领域词典自动构建方法,包含如图1所示的以下实现步骤:

(1)构建初始文本集;

(2)提取出初始文本集中各文本的关键词;

(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;

(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;对于具体领域或者问题的针对性更强,所构建的词典的适用更加灵活。

(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;通过聚类对待处理文本集进行分类,形成了不同主题的文本集合,同一主题内的文本之间的关联程度更高,为后续的词典扩展进行了语料的准备和筛选。

通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。

(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性。d是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。

进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:

(3-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(3-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。

作为一种优选,所述步骤(4)中,所抽取的领域种子词的数量为50-200个。选取的种子词过少,将影响领域词典扩展的准确性,过多则将增加选取的人力和时间成本。

作为一种优选;所述步骤(5)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集;

作为一种优选:所述步骤(6)中词汇与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。

作为一种优选,所述步骤(6)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(6)的计算过程如图2所示。

实施例1

根据多要分析的问题,初步选取1000件文本作为初始文本集;对初始文本集中的文本进行分词,去高频词和去停用词的预处理;在此基础上通过textrank算法来提取初始文本集各文本中的关键词;根据各文本关键词对初始文本集中的文本进行聚类,经过迭代聚类后剩下3个主题,假如第一主题集中包含350件文本,第二主题文本集中包含350件文本;第三主题文本集中包含300件文本。根据分析需要,欲设置两个领域词典,通过人工挑选,在第一个领域挑选50个种子词;在第二个领域中挑选出40个种子词。

先计算第一领域与聚类后主题集之间的远近:统计第一领域种子词在第一主题文本集中的出现频率;假设在第一主题文本集所包含的关键字总数为1000个,其中属于第一领域种子词的个数为310个,那么种子词出现的频率为310/1000=31%;第二主题集包含的关键字总数为1500个,其中属于第一领域种子词的个数为250个,对应的种子词的出现频率为250/1500≈16.67%;第三主题集中所包含的关键字总数为1200个,其中属于第一领域种子词的个数为100个,对应的种子词的出现概率为:100/1200≈8.33%;经过比较认为只有第一主题文本集与第一领域的相关度最高,将第一主题文本集作为第一领域词典扩展的源文本集;计算第一主题文集中各文本中各候选词与第一领域各种子种子词的关联程度,将关联程度大于阈值的候选词添加到第一领域词典中。

计算第二领域与聚类后主题集之间的远近,假设第一主题文本集中关键字属于第二领域的种子词的个数为100个,对应的种子词的出现频率为100/1000=10%;第二主题文本集中关键字属于第二领域的种子词的个数为600个,对应的种子词的出现频率为600/1500=40%;第三主题文本集中关键字属于第二领域的种子词的个数为80个,对应的种子词的出现频率为80/1200≈6.67%;经过比较认为只有第二主题文本集与第二领域的相关度最高,将第二主题文本集作为第二领域词典扩展的源文本集;计算第二主题文集中各文本中各候选词与第二领域各种子种子词的关联程度,将关联程度大于阈值的候选词添加到第二领域词典中。

经过上面的分析过程,自动建立了两个领域词典。

在某些分析中,可能需要对同一个事件或者统一类对象去分析和挖掘不同方向的信息,比如对一件事情的正向和反向情绪分析,这样就可能需要不同的词典来抽取对应的特征,通过本发明方法构建可以快速的构建起对应分析方向的词典,为多方位,全面,客观的文本分析提供有力的工具。

完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 一种端压机感应计数装置的制作...
  • 图像搜索系统及方法与流程
  • 一种用于风电机组偏航计数器的...
  • 带RFID标签的机动车环保标...
  • 基于总体数据质量的主题数据集...
  • 防伪识别产品标签的制作方法与...
  • 分析智能电视用户留存率的方法...
  • 基于RFID的多功能车辆通行...
  • 一种图片识别方法、装置和设备...
  • 基于RFID的多功能人员通行...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
领域本体构建相关技术
  • 一种用于垂直领域的概念关系构建方法和装置的制造方法
  • 一种垂直领域的概念一致性关系构建方法和装置的制造方法
  • 基于位置的服务本体搜索方法
  • 一种智能本体保护装置及其方法
  • 基于领域本体的信息检索优化方法
  • 一种基于领域本体的多源个性化新闻网页推荐方法
  • 一种基于领域本体的高准确率主观题计算机自动阅卷方法
  • 基于领域本体和模板逻辑的多语种问答接口快速构成方法
  • 一种基于通用百科网站的领域百科构建系统的制作方法
  • 分布式环境下rdfs本体的调试方法
领域词典相关技术
  • 域词典创建的制作方法
  • 一种情感词典构建方法及系统的制作方法
情感词典构建相关技术
  • 互联网多种情感词典构建方法及系统的制作方法
  • 构建词典的方法和系统的制作方法
  • 具有标记数据的完全形式词典及其构建和使用方法
  • 基于微博的情感词提取收集方法
  • 一种情感词典构建方法及系统的制作方法
  • 密码处理装置、密码处理算法构建方法和密码处理方法、以及计算机程序的制作方法

PHP网站源码福永百度标王盐田外贸网站设计南联网站定制观澜网络推广大浪关键词按天扣费龙岗百度竞价荷坳企业网站设计龙华关键词排名包年推广宝安网站改版南澳网站搭建平湖网站优化排名大鹏网站设计深圳网站优化同乐百度竞价包年推广吉祥百姓网标王推广福田网站优化按天收费南澳百度关键词包年推广大鹏网络推广福永如何制作网站福田设计网站深圳模板网站建设西乡企业网站制作大鹏模板制作平湖网站推广系统横岗SEO按天收费松岗外贸网站设计南山至尊标王大鹏网页设计永湖百搜词包东莞百姓网标王推广歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化