一种基于N-Gram的新型关键词提取方法与流程

文档序号：23501146发布日期：2021-01-01 18:06阅读：260来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明涉及关键词提取领域，具体指有一种基于n-gram的新型关键词提取方法。

背景技术：

关键词是用于表达文献主题内容，也是文本信息最重要、最具有概括性的词汇合集。高质量的关键词有助于被读者检索到与其预期关联性强的文本，并且帮助读者快速、大致地了解某个文本的语义。

在传统的关键词提取方法中，通常采用n-gram算法对文本进行短语分割，之后计算每个短语出现的概率，简单的通过其概率得到关键词。这样的提取方法存在以下缺陷：

1、采用n-gram算法通常需要定义n＝1、2、3…m，从而将文本划分成单个字符的短语、2个字符的短语、3个字符的短语、…m个字符的短语，其短语数量非常庞大，计算时间长；

2、采用n-gram算法只能单纯地计算各个短语的出现频率，在大部分文本中，例如“的”、“是”等常用的中文字符出现的概率本身较高，但是其单独包含的信息量少，且与文本的语义内容关联性低，不适合使用该短语作为关键词。

针对上述的现有技术存在的问题设计一种基于n-gram的新型关键词提取方法是本发明研究的目的。

技术实现要素：

针对上述现有技术存在的问题，本发明在于提供一种基于n-gram的新型关键词提取方法，能够有效解决上述现有技术存在的问题。

本发明的技术方案是：

一种基于n-gram的新型关键词提取方法，包含以下步骤：

s1，获取用户输入的第一文本；

s2，定义n＝1，对所述第一文本进行n-gram分割，得到单字符合集，计算每个单字符的出现概率；

s3，提取所述步骤s1中出现概率最高的第一数量的单字符合集，剔除第一文本中不包含所述单字符合集的句子，得到第二文本；

s4，定义n＝2，对所述第二文本进行n-gram分割，得到双字符串合集，计算每个双字符串的出现概率；

s5，提取所述步骤s4中出现概率最高的第一数量的双字符串合集，剔除第二文本中不包含所述双字符串合集的句子，得到第三文本；

s6，对所述双字符串合集进行字符扩展，加入每个双字符串对应所述第三文本中的外围字符，得到多字符串扩展合集，计算并提取出现权重最高的第二数量的多字符串扩展，输出所述多字符串扩展作为关键词。

进一步地，所述第一数量为5-30。

进一步地，步骤s6中，所述加入每个双字符串对应所述第三文本中的外围字符具体为：

定义m为大于等于零的整数，加入每个双字符串的前端对应所述第三文本中的前m-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2m个扩展字符串，其中m为0-m的任意整数。

进一步地，所述m为0-5的任意整数。

进一步地，所述计算并提取出现权重最高的第二数量的多字符串扩展具体为：

计算并提取出现概率最高的第二数量的多字符串扩展；

提取每个多字符串中属于所述单字符合集的单字符，累加所述每个单字符的出现概率p，根据p的大小定义所述多字符串扩展的出现权重；

提取出现权重最高的第二数量的多字符串扩展。

进一步地，所述第二数量为10-20。

因此，本发明提供以下的效果和/或优点：

本发明通过该方法可以通过n-gram的分割计算单字符、双字符的出现概率，并提取出现概率最高的单、双字符。同时，通过剔除不含单字符合集、不含双字符合集的句子，得到第三文本，可以大大缩减计算次数，减少无关语句对计算造成的影响。最后已第三文本进行扩展，可以得到更加适合的关键词。

本发明通过对双字符串合集进行扩展，可以得到双字符串增加前后若干字符的多字符串扩展合集，其包含有双字符串前后的重要信息，方便读者阅读其包含的前后信息。提高关键词的内容含量。

应当明白，本发明的上文的概述和下面的详细说明是示例性和解释性的，并且意在提供对如要求保护的本发明的进一步的解释。

附图说明

图1为本方法的流程示意图。

具体实施方式

为了便于本领域技术人员理解，现将实施例结合附图对本发明的结构作进一步详细描述：

参考图1，一种基于n-gram的新型关键词提取方法，包含以下步骤：

s1，获取用户输入的第一文本；

例如输入“傅里叶变换的目的是可将时域上的信号转变为频域(即频率域)上的信号，随着域的不同，对同一个事物的了解角度也就随之改变，因此在时域中某些不好处理的地方，在频域就可以较为简单的处理。”

s2，定义n＝1，对所述第一文本进行n-gram分割，得到单字符合集，计算每个单字符的出现概率；

通过上述文本，经过n＝1的n-gram分割后得到：“傅，里，叶，变，换，的…在，频，域，就，可，以，较，为，简，单，的，处，理。”这样一个单字符合集。

s3，提取所述步骤s1中出现概率最高的第一数量的单字符合集，剔除第一文本中不包含所述单字符合集的句子，得到第二文本；

s4，定义n＝2，对所述第二文本进行n-gram分割，得到双字符串合集，计算每个双字符串的出现概率；

s5，提取所述步骤s4中出现概率最高的第一数量的双字符串合集，剔除第二文本中不包含所述双字符串合集的句子，得到第三文本；

进一步地，所述第一数量为5-30。

进一步地，步骤s6中，所述加入每个双字符串对应所述第三文本中的外围字符具体为：

定义m为大于等于零的整数，加入每个双字符串的前端对应所述第三文本中的前m-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2m个扩展字符串，其中m为0-m的任意整数，所述m为0-5的任意整数。

进一步地，所述计算并提取出现权重最高的第二数量的多字符串扩展具体为：

计算并提取出现概率最高的第二数量的多字符串扩展；

提取每个多字符串中属于所述单字符合集的单字符，累加所述每个单字符的出现概率p，根据p的大小定义所述多字符串扩展的出现权重；

提取出现权重最高的第二数量的多字符串扩展，所述第二数量为10-20。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属于本发明的涵盖范围。

技术特征：

1.一种基于n-gram的新型关键词提取方法，其特征在于：包含以下步骤：

s1，获取用户输入的第一文本；

s2，定义n＝1，对所述第一文本进行n-gram分割，得到单字符合集，计算每个单字符的出现概率；

s3，提取所述步骤s1中出现概率最高的第一数量的单字符合集，剔除第一文本中不包含所述单字符合集的句子，得到第二文本；

s4，定义n＝2，对所述第二文本进行n-gram分割，得到双字符串合集，计算每个双字符串的出现概率；

s5，提取所述步骤s4中出现概率最高的第一数量的双字符串合集，剔除第二文本中不包含所述双字符串合集的句子，得到第三文本；

2.根据权利要求1所述的一种基于n-gram的新型关键词提取方法，其特征在于：所述第一数量为5-30。

3.根据权利要求1所述的一种基于n-gram的新型关键词提取方法，其特征在于：步骤s6中，所述加入每个双字符串对应所述第三文本中的外围字符具体为：

4.根据权利要求3所述的一种基于n-gram的新型关键词提取方法，其特征在于：所述m为0-5的任意整数。

5.根据权利要求1所述的一种基于n-gram的新型关键词提取方法，其特征在于：所述计算并提取出现权重最高的第二数量的多字符串扩展具体为：

计算并提取出现概率最高的第二数量的多字符串扩展；

提取每个多字符串中属于所述单字符合集的单字符，累加所述每个单字符的出现概率p，根据p的大小定义所述多字符串扩展的出现权重；

提取出现权重最高的第二数量的多字符串扩展。

6.根据权利要求5所述的一种基于n-gram的新型关键词提取方法，其特征在于：所述第二数量为10-20。

技术总结
本发明涉及一种基于N‑Gram的新型关键词提取方法，包含以下步骤：S1，获取用户输入的第一文本；S2，定义N＝1，对所述第一文本进行N‑Gram分割，得到单字符合集，计算每个单字符的出现概率；S3，提取所述步骤S1中出现概率最高的第一数量的单字符合集，剔除第一文本中不包含所述单字符合集的句子，得到第二文本；S4，定义N＝2；S5，提取所述步骤S4中出现概率最高的第一数量的双字符串合集，剔除第二文本中不包含所述双字符串合集的句子，得到第三文本；S6，对所述双字符串合集进行字符扩展，加入每个双字符串对应所述第三文本中的外围字符，得到多字符串扩展合集，计算并提取出现权重最高的第二数量的多字符串扩展，输出所述多字符串扩展作为关键词。

技术研发人员：陈骏轩;苏劲松
受保护的技术使用者：厦门大学
技术研发日：2020.10.09
技术公布日：2021.01.01

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈骏轩;苏劲松
技术所有人：厦门大学
我是此专利的发明人

上一篇：一种具有碳桥连的多孔聚酞菁类激光防护材料及其制备方法与流程
上一篇：一种具有共轭微孔结构的聚酞菁类光限幅材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。