总结:自然语言处理之——关键词提取(一)

优采云发布时间: 2022-10-25 23:28

　　总结:自然语言处理之—— 关键词提取(一)

　　一。概括

　　在本次分享中，我们将了解最常用的关键词提取技术。关键词是一组表示文章重要内容的词。它在文本的分类和聚类以及自动摘要中起着重要的作用。它还可以让人们更直观、更方便地浏览文本信息。在真正的普通文本中，关键词是不包括在内的，所以关键词技术的自动提取意义重大。

　　二。关键词提取技术概述

　　面对海量的信息，我们无法完全接收到大量的信息，所以需要过滤掉一些有趣或有代表性的信息来接收。那么这个过程就是关键词提取技术。如果我们可以用几个简单的关键词准确地描述所有的文档，那么我们就可以通过关键词了解一个文章的内容，这将提高信息获取效率。

　　关键词提取算法一般可以分为两类：有监督的和无监督的。有监督的关键词提取方法主要是通过分类来进行的。首先创建一个比较丰富和完整的词汇表，然后通过计算相似度来确定每个文档与词汇表中每个词的匹配程度。类似于标注的方式，从而达到关键词提取的效果。有监督的方法虽然可以获得很高的提取准确率，但是需要大量的标注数据，而且人工成本非常高。此*敏*感*词*。难以表达此类信息的内容，但它需要大量手动维护这个受控词汇。这已成为使用监督方法的一大缺点。

　　与有监督的关键词提取方法相比，无监督的方法对数据的要求要低得多。无需手动创建和维护词汇表，也无需手动标准语料库辅助训练。因此，这种关键词提取技术更为常用。这次我们主要介绍的关键词提取技术是TF-IDF算法和TextRank算法。

　　三。TF-IDF算法

　　TF-IDF算法（Term Frequency-Inverse Document Frequency，词频-逆文档频率算法）是一种基于统计的计算方法，常用于评估文档集中某个词对文档的重要性。这个思路符合关键词提取的要求。一个词对文档越重要，被关键词的概率就越大，所以TF-IDF算法通常应用于关键词的提取。

　　首先，从算法名称上分析，TF-IDF算法由两部分组成：TF算法和IDF算法。TF 算法计算一个单词在文档中出现的频率。其基本思想是理解一个词在文档中出现的次数越多，该词对文档的表达能力就越强。IDF算法就是统计一个词在文档集中出现了多少个文档。其基本思想是理解，如果一个词出现在较少的文档中，则区分文档的能力更强。

　　TF算法和IDF算法也可以单独使用，但是这两种算法在单独使用的过程中都有其不足之处。TF算法只能衡量单词在文档中的出现频率，没有考虑单词区分文档的能力。IDF算法则相反，强调词的区分能力，但由于一个词在文档中可以频繁出现，也意味着该词可以很好地表征文档的特征。显然很难忽视这一点。不合理。因此，经过实际考虑，综合使用这两种算法，组合成一个TF-IDF算法，从词频和逆文档频率两个方面衡量词的代表能力。

　　图 1：TF 表达式

　　实际使用中，TF的计算表达式如图所示。其中 nij 表示文档 j 中单词 i 的出现次数。但仅以频率表示，长文本中的词出现频繁出现的概率较高，这会影响不同文档之间关键词权重的比较。因此，一般在计算过程中对词频进行归一化处理。分母部分是统计文档中每个单词出现次数的总和，即文档中单词的总数。

　　图 2：IDF 表达式

　　IDF算法的计算表达式如图所示。|D| 表示文档集中的文档总数，|Di| 表示在文档集中出现单词 i 的文档数。分母中的+1采用了拉普拉斯平滑的思想，避免出现一些语料库中没有出现过且分母为零的新词，具有增强算法鲁棒性的效果。

　　图 3：TF-IDF 表达式

　　TF-IDF算法的表达式如上图所示。TF-IDF算法是TF算法和IDF算法的综合运用。对于两种算法的结合，经过大量的理论推导和实验研究，发现得到了IDF算法的值。的对数，然后相乘是一种更有效的计算方法。

　　TF-IDF算法除了上面提到的传统TF-IDF算法外，还有很多变体的加权方法。在传统的TF-IDF算法中，只考虑了词的两个统计信息。因此，文本的信息利用程度显然比较小。因此，除了上述信息之外，一段文本中还有很多信息可以对关键词的提取起到很好的作用，比如每个词的词性，出现在哪里，以及很快。算法本身的定义是死的，但是根据我们的应用场景，我们可以对算法进行合理的改造和补充，使其更适合应用环境，从而更好的得到想要的结果。

　　四。文本排序算法

　　在上述TF-IDF算法中，需要基于现成的语料库，主题模型的提取算法需要从*敏*感*词*文档中学习，发现文档隐藏的主题。TextRank算法是基于一个可以分离的语料库，只分析单个文档就可以提取出文档的关键词。这也是TextRank算法的一个重要特点。TextRank算法的基本思想来源于谷歌的PageRank算法。因此，您需要先了解 PageRank 算法。

　　图4：PageRank算法*敏*感*词*

　　PageRank算法是一种网页排名算法，有两个基本思想：（1）链接数。一个网页链接的其他网页越多，该网页就越重要；(2)链接质量。一个网页由权重较高的网页链接，这也意味着该网页更重要。

　　图 5：PageRank 算法表达式

　　In(Vi) 是 Vi 的传入链的集合，Out(Vj) 是 Vj 的传出链的集合，|Out(Vj)| 是传出链的数量。由于每个网页都应该对每个链接贡献自己的分数，因此 S(Vj)/|Out(Vj)| 是 Vj 对 Vi 贡献的分数。将 Vi 的所有传入链对其贡献的分数加起来就是 Vi 本身的值。用这种方式计算每个网页的分数是有问题的。每个网页的得分与其链接网页的得分有关，那么如何确定其链接网页的价值呢？为了解决这个问题，该算法首先将所有网页的分数初始化为1，然后通过多次迭代收敛每个网页的分数。收敛得到的值就是最终的分数。

　　图 6：PageRank 算法转换表达式

　　在图 5 中的表达式中进行评估会导致一些孤立网页得分为零。为了避免这种情况，对图5中的公式进行了修改，增加了阻尼系数d。修改后的表达式如图6所示，这样即使是孤立的网页，也能得到数值。

　　以上就是PageRank算法的理论和TextRank算法的理论基础。不同的是，PageRank是一个未加权的图，而TextRank的自动总结属于加权图，因为除了链接句子的重要性之外，评分的时候还要考虑两个句子的相似度。所以 TextRank 的完整表达式是

　　图 7：TextRank 算法转换表达式

　　在计算每个句子对其链接句子的贡献时，不采用平均分布的方法，而是通过计算权重占总权重的比例来进行分布，其中权重是两个句子的相似度值。相似度计算方法可以采用距离相似度、余弦相似度等。自动汇总文档时，每条语句默认与其他语句有链接关系，即又是一个完整的图。

　　TextRank应用于关键词提取时，与应用于自动摘要有两点不同：（1）词之间的关联没有权重；(2) 每个词都与所有其他词没有联系。

　　由于第一点的不同，TextRank 的焦点分数计算会退化，对每个链接的词贡献分数。

　　图 8：TextRank 算法转换单词表达

　　对于第二个区别，既然每个词都没有与其他所有词相连，那么它们之间的链接关系应该如何设置呢？TextRank应用于关键词提取时，增加了窗口的概念，将窗口中的单词相互链接。让我们用一个例子来展示一个窗口的概念应用。

　　原创文件：詹姆斯赢得了他职业生涯的第4个总冠军。

　　分词后：[James, won, won, career, career, 1st, 4th, seat, Championship]。设置窗口大小为4，可以得到如下窗口：

　　1. [詹姆斯，赢了，拿了，职业生涯]

　　2. [赢得，从事，职业，事业]

　　3.【老、职业、事业、文章】

　　4. [事业，事业，部分，4]

　　5.【事业，第4号，街区】

　　6. [没有。4、拦网、冠军]

　　每个窗口中的所有单词都有链接关系，例如，[James]和[Won, Le, Occupation]之间存在链接关系。此时，可以应用TextRank的公式来计算每个词的得分。最后，可以选择得分最高的n个单词作为文档的关键词。

　　五。总结

　　本次分享的内容是介绍关键词抽取技术在自然语言处理中的用处和效果。主要内容主要讲解基于文档库的TF-IDF（词频-逆文档频率算法）的基本原理，可以从中分离出来。文献库中存在的TextRank算法的思想和表达。关键词提取技术的方法多种多样，并不通用，所以接下来的分享内容就是LSA/LSI关键词提取算法的介绍，敬请期待！

　　水平有限，文中可能存在错误或不准确之处。欢迎指正和讨论。

　　归纳总结: 关键词文章采集（根据关键词采集文章）

　　1.根据关键词文章采集系统

　　关键词自动写基于关键词自动生成聚合的、相关的文章，支持自动双标题、自动图片链接去除和图片水印添加。并且可以根据标题自动生成目录，从而根据关键词采集的文章自动编写一个全新的文章。

　　2. 关键词文章采集器

　　关键词自动书写工具生成的内容、标题、图片都是根据关键词生成的，批量文章同义词替换、敏感词删除、自动内链等都可以根据工具内置的SEO模板来实现，实现原创的高度同时有利于搜索引擎优化，帮助网站快速收录。

　　3. 关键词采集网站

　　改进我们的网站 SEO 从关键词研究开始，以确定正确的关键词和目标短语。一旦我们知道要关注哪个关键词，我们就可以开始将它们实施到我们的网站内容、标题标签、主要描述等中。最好还专注于从高处构建到我们的网站的反向链接-quality 网站以提高我们的权威和排名能力。

　　4. 文章搜索关键词

　　如果我们无法从激烈的竞争对手那里吸引观众，我们可以尝试使用 SEO 本地化我们的网站。如果我们遵循这条路线，我们可以专注于从我们的地理区域吸引潜在客户。

　　5. 文章提取关键词

　　人们总是接受独特的内容通过关键词自动写作工具检查我们的内容可以帮助我们查看其他人是否使用过类似的内容，因此独特性将使我们的电子邮件更具吸引力并导致更多的多导关键词Auto - 写作工具及其强大的搜索引擎优化功能衡量内容相关性与用户意图和满意度的一致性。

　　6.筛选文章关键词

　　这不仅仅是关于关键词展示位置优化我们的网站，而且在增加流量、点击率、附加值和令人满意的用户体验方面也促进了我们的 SEO 工作

　　7. 搜索关键词采集数据

　　首先，研究与我们地区相关的关键词，并尝试对长尾关键词进行排名；更清楚地缩小目标受众范围，同时减少竞争对手的数量。如果我们被谷歌吓倒了，我们可以试试其他搜索引擎的运气。

　　8. 关键词在线采集

　　社交媒体是另一个强大的潜在客户生成工具，可以吸引我们的目标受众。当潜在客户搜索有关我们行业或产品的信息时，他们很有可能最终会转向社交媒体。我们的目标受众在最活跃的社交媒体平台上占有重要地位。

　　9.关键词采集方法是

　　这就是为什么了解您的目标客户至关重要

　　10. 关键词采集途径

　　为了充分利用 SEO，我们需要创建与我们的目标受众相关的高质量、关键词丰富的内容，使用关键词自动化写作工具不断挖掘新鲜、趋势、实时的内容，以及继续分享到我们的文章博客，通过不断更新和网站相关内容争取更多关键词排名。

　　采集发帖

0

分享 2022-10-25

关键词文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

总结:自然语言处理之——关键词提取(一)

0 个评论

发起人

AI时代内容工厂

总结:自然语言处理之——关键词提取(一)

0 个评论

发起人

相关问题