IGTF-IDF文本特征向量生成及文本分类方法与流程

文档序号:16737270发布日期:2019-01-28 12:43阅读:1433来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
IG TF-IDF文本特征向量生成及文本分类方法与流程

本发明属于文本挖掘和机器学习领域,具体涉及一种igtf-idf文本特征向量生成及文本分类方法。



背景技术:

随着互联网时代的到来,文本都以电子文本的方式呈现,导致电子文档的数量急剧增加,因此,如何对海量数据文本进行有效的组织、挖掘变得越来越重要。自动分类就是其中应用最为广泛的技术手段之一。分类是将文本分到预定义的类中,是信息检索和数据挖掘领域的研究热点。一般情况下,将一些具有类别标志的文本作为训练数据,通过机器学习算法获得分类器,然后根据文本内容判断它的类别。在对文本进行分类前,需要将其表示成计算机能够处理的形式,向量空间模型(vsm)是常用的文本表示模型,它以特征项作为文本表示的基本单位,从而将文本表示成空间向量的形式。文本经分词得到的特征维数往往会非常高,可以达到上万,甚至几十万。大多数字词与分类任务无关,可以删除而不影响分类效果,删除不相关字词的过程称为特征选择,特征选择依据特征向量权重计算方法。在分类前进行特征降维,不但降低了计算复杂度,而且提高分类效果。因此,在生成文本特征向量时,词条权重计算方法是否科学决定了文本分类的性能。

常见的特征提取方法有,词频-反文档频率(tf-idf)、互信息(mi)、信息增益(ig)等。这些评估策略从不同角度度量特征对分类所起的作用。其中,tf-idf算法基于在信息论中由信息熵证明了其物理含义,因此被广泛运用于文本挖掘中。tf-idf的主要思想是:如果某个词或者短语在一篇文章中出现的频率高,并且在其它文章中出现较少,则认为该词条有很好的类别区分能力,适合用来分类。而在实际应用中,tf-idf算法依旧存在缺陷,特别是当运用于文本分类时,自动文本分类需要在余弦已分类的文本集上进行训练学习,然而tf-idf算法并没有考虑词条出现的文本类别,不能充分反映词条在文本文本分类中的重要性。具体表现在idf的计算上,比如一个词条集中出现在某一个类中,按照idf的定义,它具有较小的类别区分能力,而事实并非如此。如果一个词条在一个类的文档中频繁出现,说明该词条能够很好的代表这个类的文本特征,应该给予较高的权重,并选来作为该类文本的词条以区别其它类文档。于是,人们提出了利用词条的类间分布信息和类内分部信息的差异来计算权重的一些新方法,其中典型代表就是tfatf,他利用词条的平均词频类间集中度和文档频类间集中度来计算词条的权重,进而提取合适的词条。然而,tfatf等有监督加权方法所计算的词条权重与具体文本的类别有关,而待分类的新闻本的所述类别是未知的,要么针对所有类别逐一用tfatf算法计算权重,要么采用tf-idf等传统方法计算权重,前者需要在训练学习时增加额外的统计信息,后者则在分类或测试时增加了计算量。



技术实现要素:

针对上述存在的技术问题,本发明提供一种igtf-idf文本特征向量生成及文本分类方法,包括以下步骤:

步骤1:生成文本特征向量:

输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于igtf-idf方法,调节选项参数,生成每个文本的特征向量f(dj);所述igtf-idf为信息增益词频-反文档频率,即informationgain,termfrequency-inversedocumentfrequency;

步骤2:训练分类器:

步骤2.1:将文本集中的特征向量f(dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;

步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;

步骤3:评估分类性能:

利用训练后的分类器对测试集中的文本进行分类,并对测试集的分类结果进行评估,得到分类性能指标;根据分类性能指标,可以调节步骤1中的选项参数,直至用户满意为止;

步骤4:对目标文本集进行分类:

使用训练后的分类器对目标文本集进行分类,得到分类结果;所述目标文本集由用户选定。

所述步骤1具体包括:

步骤1.1:文本预处理;

对文本集中各个文本类型的编码进行统一,导入文本集中所有文本,对这些文本进行去燥和分词处理;

所述去燥包括标点符号、数字、停用词和其他无意义字符;

所述分词为使用nlpir分词器对各个文本进行分词处理,提取出词条;

步骤1.2:统计文本特征;

由提取出的词条构建初始词汇表;

统计文本集中文本总数目;

统计各个词条的文本频率,即包含该词条的文本在文本总数目中的占比;

统计各个文本类别的文本数目;

统计各个词条的各个类别文本频率,即在任意一个文本类别中,包含该词条的文本在该文本类别的文本数目中的占比;

统计各个文本的各个词频,即该文本中每个词条的出现频次;

步骤1.3:去除低频词:

计算所有词条的文本频率df,对初始词汇表中的所有词条进行初次评估,选择保留一些文本频率高于设定的最小文本频率,形成第二词汇表;

各个词条的文本频率df(ti,c)计算方法为:

其中,count(ti,c)是指在文本集c中,包含词条ti的文本数量;nc代表文本集合c中包含的文本总数目;

取文本频率df(ti,c)高于设定的最小文本频率min_df的词条,形成第二词汇表;

本实施例中,min_df=1e-3;

步骤1.4:词条权重计算:

用igtf-idf算法计算每个词条在文本中的权重,根据词条个数指标对词汇表进行过滤,选取每篇文本的前k个词条组合成为第三词汇表,并生成文本特征向量,具体实现步骤如下:

计算词条在总的数据集条件下对该文本的贡献度,即权值wc(ti,dj),利用如下公式:

wc(ti,dj)=tf*idf(ti,c)

c代表文本集,由各文本类别的数据集cm组成,即c={c1,c2,…,cm};其中反文本频率idf(ti,c),其计算方法为:

这里,coumt(ti,c)是指在文本集c中,包含词条ti的文档数量;nc代表文本集c中包含的文档总数目;log是对数函数;

计算词条在各文本类别的数据集条件下对该文档的贡献度利用如下公式:

其中类别反文档频率idf(ti,cm),利用如下公式:

其中,count(ti,cm)是指在第m类数据集cm中,包含词条ti的文档数量;代表第m类数据集cm中包含的文档总数目;

按如下公式计算词条的权重值:

其中pm是指第m类数据集cm中的文档数目在总数据集c的文档数目的占比;

根据词条的权重值按从大到小的顺序排序,k由每篇文档的选前k个词条组合成为新的词汇表;

根据第三词汇表及词条在对应文档中的权重值表示文档dj的特征向量如下:

f(dj)=[w(t1,dj),w(t2,dj),…,w(tn,dj)]。

所述分类性能指标包括宏平均f1值和微平均f1值,分别定义为:

微平均f1值=2p*r/(p+r)

其中,p为整个测试集分类结果中各个类别的平均准确率;r是整个测试集的分类结果中各个类别的文本集合被正确分类的召回率;是第m个文本类别(m=1,2,…,m)的分类性能指标,m为类别数,pm为第m个类别的平均准确率;rm是第m个类别的召回率,∑是求和函数。

所述文本集采用20newsgroup中文语料库的精简版本。

本发明的有益效果:

本发明提出一种igtf-idf文本特征向量生成及文本分类方法,igtf-idf词条权重计算新方法考虑到文本中比其他词具有更强类别区分能力的词条在不同类别中分布不均衡,根据全部数据集下词条的贡献与各类别数据集下词条贡献的均值之差,建立了一种独特的igtf-idf模型来衡量一个词条在该篇文本中对其分类的贡献度,即该词条的权重。与现有技术相比,用上述igtf-idf方法计算所得权重更能真实的反映不同词条对文本分类的重要程度,使得具有强类别区分能力的词条被分配更大的权重,使得权重计算更加合理,从而提高了文本分类的准确度;而且计算所得词条权重无需知道具体所述类别,克服了tfadf等有监督方法在多类别文本中分类的不足;

另外,本发明所提供的特征向量生成方法及文本分类方法还具备多个不同的选项参数,根据分类性能测试结果进行优化调优,适应具有不同特点的文本数据集,从而获得最佳的文本分类效果。

本发明提出的igtf-idf方法比tf-idf等现有方法更加优越,本发明提高的特征向量方法生成的特征向量应用于多种分类器,尤其适合多类别文本分类应用。

本发明设计合理,易于实现,具有很好的实用价值。

附图说明

图1为本发明具体实施方式中所述igtf-idf文本特征向量生成及文本分类方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明做出进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明提出一种igtf-idf文本特征向量生成及文本分类方法,如图1所示,包括以下步骤:

步骤1:生成文本特征向量:

输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于igtf-idf方法按顺序执行如下步骤1.1至1.4,生成每个文本的特征向量;所述igtf-idf为信息增益词频-反文档频率,即informationgain,termfrequency-inversedocumentfrequency;

本实施例中,所述文本集采用20newsgroup中文语料库的精简版本;

步骤1.1:文本预处理;

对文本集中各个文本类型的编码进行统一,导入文本集中所有文本,对这些文本进行去燥和分词处理;

所述去燥包括标点符号、数字、停用词和其他无意义字符;

所述分词为使用nlpir分词器对各个文本进行分词处理,提取出词条;

本实施例中,共从文本集中提取出55898个词条;

步骤1.2:统计文本特征;

由提取出的词条构建初始词汇表;

统计文本集中文本总数目;

统计各个词条的文本频率,即包含该词条的文本在文本总数目中的占比;

统计各个文本类别的文本数目;

统计各个词条的各个类别文本频率,即在任意一个文本类别中,包含该词条的文本在该文本类别的文本数目中的占比;

统计各个文本的各个词频,即该文本中每个词条的出现频次;

步骤1.3:去除低频词:

计算所有词条的文本频率df,对初始词汇表中的所有词条进行初次评估,选择保留一些文本频率高于设定的最小文本频率,形成第二词汇表。

各个词条的文本频率df(ti,c)计算方法为:

其中,count(ti,c)是指在文本集c中,包含词条ti的文本数量;nc代表文本集合c中包含的文本总数目;

取文本频率df(ti,c)高于设定的最小文本频率min_df的词条,形成第二词汇表;

本实施例中,min_df=1e-3;

步骤1.4:词条权重计算:

用igtf-idf算法计算每个词条在文本中的权重,根据词条个数指标对词汇表进行过滤,选取每篇文本的前k个词条组合成为第三词汇表,并生成文本特征向量,具体实现步骤如下:

计算词条在总的数据集条件下对该文本的贡献度,即权值wc(ti,dj),利用如下公式:

wc(ti,dj)=tf*idf(ti,c)

c代表文本集,由各文本类别的数据集cm组成,即c={c1,c2,…,cm};其中反文本频率idf(ti,c),其计算方法为:

这里,count(ti,c)是指在文本集c中,包含词条ti的文档数量;nc代表文本集c中包含的文档总数目;log是对数函数;

计算词条在各文本类别的数据集条件下对该文档的贡献度利用如下公式:

其中类别反文档频率idf(ti,cm),利用如下公式:

其中,count(ti,cm)是指在第m类数据集cm中,包含词条ti的文档数量;代表第m类数据集cm中包含的文档总数目;

按如下公式计算词条的权重值:

其中pm是指第m类数据集cm中的文档数目在总数据集c的文档数目的占比;

根据词条的权重值按从大到小的顺序排序,k由每篇文档的选前k个词条组合成为新的词汇表;

根据第三词汇表及词条在对应文档中的权重值表示文档dj的特征向量如下:

f(dj)=[w(t1,dj),w(t2,dj),…,w(tn,dj)]

步骤2:训练分类器:

步骤2.1:将文本集中的特征向量f(dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;

步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;

本实施例的分类器采用随机森林分类器和逻辑回归分类器;随机森林分类器中设置树的棵数为100;

步骤3:评估分类性能:

利用训练后的分类器对测试集中的文本进行分类,并对测试集的分类结果进行评估,得到分类性能指标,包括宏平均f1值和微平均f1值,分别定义为:

微平均f1值=2p*r/(p+r)

其中,p为整个测试集分类结果中各个类别的平均准确率;r是整个测试集的分类结果中各个类别的文本集合被正确分类的召回率;是第m个文本类别(m=1,2,…,m)的分类性能指标,m为类别数,pm为第m个类别的平均准确率;rm是第m个类别的召回率,∑是求和函数;

根据分类性能指标,调节步骤1.1至步骤1.4中的选项参数,直至用户满意为止;

步骤4:对目标文本集进行分类:

使用训练后的分类器对目标文本集进行分类,得到分类结果;所述目标文本集由用户选定。

对本实施例中所述igtf-idf文本特征向量生成及文本分类方法进行验证:

分别使用本发明训练的使用逻辑回归分类器和tf-idf方法对20newsgroups中文语料库中选取的10类文本集进行分类实验;结果表1所示:

表1

如表1所示,可见igtf-idf方法明显优于tf-idf方法。

分别使用本发明训练的随机森林分类器和tf-idf方法对20newsgroups中文语料库中选取的10类文本集进行分类实验。结果如下:

表2

如表2所示,可见igtf-idf方法明显优于tf-idf方法。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种知识图谱中实体类型分类方...
  • 短文本分类模型的生成方法、分...
  • 一种文本分类方法、计算机可读...
  • 舆情评论信息的情感分析方法、...
  • 基于复杂推理网络的自动解题方...
  • 情感词向量构建方法及系统与流...
  • 直播间话题的生成方法、装置、...
  • 基于情感的个性化区域生成与展...
  • 处理子串信息的方法、计算机数...
  • 一种基于深度学习的电力通信领...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
特征值与特征向量相关技术
  • 用于公路地貌识别的特征向量提取设备的制造方法
  • 基于多尺度几何特征向量的变化检测方法
  • 基于回波谱建立特征值概率统计模型及天线自检的方法
  • 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置的制造方法
  • 用于公路地貌识别的特征向量提取设备的制造方法
  • 一种基于特征值检测的thds系统探测结果有效性的识别方法
  • 基于Android系统的特征值定义和使用方法及系统的制作方法
  • 基于eigd的大规模时滞电力系统特征值计算方法
  • 基于云的二值向量距离计算方法、装置及服务器的制造方法
  • 一种采用分形特征值的信号检测方法

PHP网站源码大芬设计网站横岗百度竞价荷坳网站优化惠州百度网站优化大鹏营销型网站建设布吉网站优化按天计费松岗百度竞价荷坳seo网站优化惠州网站优化福田外贸网站制作福永网络广告推广石岩网站设计坪地seo网站优化荷坳关键词按天扣费坂田建网站罗湖网站改版同乐优化双龙阿里店铺运营龙岗关键词按天扣费福永优化观澜SEO按天扣费木棉湾设计网站广州网站优化排名龙华网站制作设计福田高端网站设计石岩建设网站坪地至尊标王坑梓SEO按天扣费龙华百度竞价包年推广坪山企业网站改版歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化