NLP系列-关键词抽取技术（一）-技术原理篇

雾城787172393

一、背景介绍

关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类和文本分类等方面有着重要的应用。

关键词提取算法一般分为有监督和无监督两类:

有监督：有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。优点是精度较高，缺点是需要大批量的标注数据，人工成本过高，并且词表需要及时维护。
无监督：相比较而言，无监督的方法对数据的要求低，既不需要一张人工生成且需要持续维护的词表，也不需要人工标注语料辅助训练。目前比较常用的关键词提取算法都是基于无监督算法。如TF-IDF算法，TextRank算法和主题模型算法（包括LSA，LSI，LDA等）。

二、TF-IDF算法简介

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF-IDF是一种统计方法，用以评估一字/词对于一个文件集合或一个语料库中的其中一份文档的重要程度。字/词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

图1：TF-IDF实例矩阵如图1所示，图示为一个TF-IDF的实例矩阵，该矩阵有10行，即语料库一共有十篇文档，每列表示整个语料库内的某一个词典的字/词，如果谋篇文档中出现了词典中的字/词，那么在实例矩阵中，该位置不为0；若用字/词在该文档中出现的词频来填充，则该实例矩阵为TF矩阵，又称为词频矩阵。当使用逆文档率乘以对应的词频矩阵即可得到如图1所示的TF-IDF矩阵。

2.1 TF-词频(Term Frequency)

词频（TF）表示字/词（关键字）在文档中出现的频率。

这个数字通常会被归一化(一般是词频除以文档总词数), 以防止它偏向长的文档。

TF_{ij}=\frac{n_{ij}}{\sum_{k}n_{ij}}$ $TF_{w}=\frac{某一类字/词w出现的次数}{该类字/词出现的总次数}

其中$n_{ij}$是该字/词在文档$d_{j}$中出现的次数，分母则是文档$d_{j}$中所有字/词出现的次数总和；

2.2 IDF-逆向文件频率(Inverse Document Frequency)

逆向文档频率 (IDF) ：某一特定字/词的IDF，可以由总文档数目除以包含该词语的文件的数目，再将得到的商取对数得到。

如果包含字/词w的文档越少, IDF越大，则说明字/词具有很好的类别区分能力。

IDF_{i}=log\frac{D}{|{j:w_{i}\in{d_{j}}}|}

其中，|D|是语料库中的文件总数。 {|{j:w_{i}\in{d_{j}}}|} 表示包含词语 w_i 的文档数目（即 n_{ij}\neq0 的文档数目）。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用拉普拉斯平滑化处理 {1+|{j:w_{i}\in{d_{j}}}|} 即：

IDF=log(\frac{语料库的文档总数}{包含字/词w的文档数+1}) ，其中分母加1是为了避免分母为0

2.3 TF-IDF 实际为TF*IDF

某一特定文件内的高词语频率，以及该词语字/词在整个文档集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的字/词，保留重要的字/词。

TF-IDF=TF \times{IDF}

注： TF-IDF算法非常容易理解，并且很容易实现，但是其简单结构

发布于 2021-03-23 13:57

PHP网站源码莱芜推广网站公司石岩百姓网标王多少钱赣州网站优化排名哪家好铜川建网站推荐垦利seo网站优化多少钱来宾网站优化多少钱伊春建网站报价广元品牌网站设计报价上海企业网站设计潍坊模板制作价格湖州百度seo多少钱张掖网站优化按天扣费报价大丰关键词按天计费沈阳百度seo报价湘潭高端网站设计报价宜昌百姓网标王多少钱兰州seo排名推荐安康网站建设安康建设网站保山企业网站设计多少钱湘西网站定制嘉兴百度爱采购保定seo网站推广哪家好廊坊外贸网站设计吕梁设计网站推荐三明网站开发推荐伊犁网站建设设计公司网站优化按天扣费报价甘南网页制作锦州百度关键词包年推广公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化