本发明涉及关键词提取领域,具体指有一种基于n-gram的新型关键词提取方法。
背景技术:
关键词是用于表达文献主题内容,也是文本信息最重要、最具有概括性的词汇合集。高质量的关键词有助于被读者检索到与其预期关联性强的文本,并且帮助读者快速、大致地了解某个文本的语义。
在传统的关键词提取方法中,通常采用n-gram算法对文本进行短语分割,之后计算每个短语出现的概率,简单的通过其概率得到关键词。这样的提取方法存在以下缺陷:
1、采用n-gram算法通常需要定义n=1、2、3…m,从而将文本划分成单个字符的短语、2个字符的短语、3个字符的短语、…m个字符的短语,其短语数量非常庞大,计算时间长;
2、采用n-gram算法只能单纯地计算各个短语的出现频率,在大部分文本中,例如“的”、“是”等常用的中文字符出现的概率本身较高,但是其单独包含的信息量少,且与文本的语义内容关联性低,不适合使用该短语作为关键词。
针对上述的现有技术存在的问题设计一种基于n-gram的新型关键词提取方法是本发明研究的目的。
技术实现要素:
针对上述现有技术存在的问题,本发明在于提供一种基于n-gram的新型关键词提取方法,能够有效解决上述现有技术存在的问题。
本发明的技术方案是:
一种基于n-gram的新型关键词提取方法,包含以下步骤:
s1,获取用户输入的第一文本;
s2,定义n=1,对所述第一文本进行n-gram分割,得到单字符合集,计算每个单字符的出现概率;
s3,提取所述步骤s1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;
s4,定义n=2,对所述第二文本进行n-gram分割,得到双字符串合集,计算每个双字符串的出现概率;
s5,提取所述步骤s4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;
s6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。
进一步地,所述第一数量为5-30。
进一步地,步骤s6中,所述加入每个双字符串对应所述第三文本中的外围字符具体为:
定义m为大于等于零的整数,加入每个双字符串的前端对应所述第三文本中的前m-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2m个扩展字符串,其中m为0-m的任意整数。
进一步地,所述m为0-5的任意整数。
进一步地,所述计算并提取出现权重最高的第二数量的多字符串扩展具体为:
计算并提取出现概率最高的第二数量的多字符串扩展;
提取每个多字符串中属于所述单字符合集的单字符,累加所述每个单字符的出现概率p,根据p的大小定义所述多字符串扩展的出现权重;
提取出现权重最高的第二数量的多字符串扩展。
进一步地,所述第二数量为10-20。
因此,本发明提供以下的效果和/或优点:
本发明通过该方法可以通过n-gram的分割计算单字符、双字符的出现概率,并提取出现概率最高的单、双字符。同时,通过剔除不含单字符合集、不含双字符合集的句子,得到第三文本,可以大大缩减计算次数,减少无关语句对计算造成的影响。最后已第三文本进行扩展,可以得到更加适合的关键词。
本发明通过对双字符串合集进行扩展,可以得到双字符串增加前后若干字符的多字符串扩展合集,其包含有双字符串前后的重要信息,方便读者阅读其包含的前后信息。提高关键词的内容含量。
应当明白,本发明的上文的概述和下面的详细说明是示例性和解释性的,并且意在提供对如要求保护的本发明的进一步的解释。
附图说明
图1为本方法的流程示意图。
具体实施方式
为了便于本领域技术人员理解,现将实施例结合附图对本发明的结构作进一步详细描述:
参考图1,一种基于n-gram的新型关键词提取方法,包含以下步骤:
s1,获取用户输入的第一文本;
例如输入“傅里叶变换的目的是可将时域上的信号转变为频域(即频率域)上的信号,随着域的不同,对同一个事物的了解角度也就随之改变,因此在时域中某些不好处理的地方,在频域就可以较为简单的处理。”
s2,定义n=1,对所述第一文本进行n-gram分割,得到单字符合集,计算每个单字符的出现概率;
通过上述文本,经过n=1的n-gram分割后得到:“傅,里,叶,变,换,的…在,频,域,就,可,以,较,为,简,单,的,处,理。”这样一个单字符合集。
s3,提取所述步骤s1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;
s4,定义n=2,对所述第二文本进行n-gram分割,得到双字符串合集,计算每个双字符串的出现概率;
s5,提取所述步骤s4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;
s6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。
进一步地,所述第一数量为5-30。
进一步地,步骤s6中,所述加入每个双字符串对应所述第三文本中的外围字符具体为:
定义m为大于等于零的整数,加入每个双字符串的前端对应所述第三文本中的前m-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2m个扩展字符串,其中m为0-m的任意整数,所述m为0-5的任意整数。
进一步地,所述计算并提取出现权重最高的第二数量的多字符串扩展具体为:
计算并提取出现概率最高的第二数量的多字符串扩展;
提取每个多字符串中属于所述单字符合集的单字符,累加所述每个单字符的出现概率p,根据p的大小定义所述多字符串扩展的出现权重;
提取出现权重最高的第二数量的多字符串扩展,所述第二数量为10-20。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属于本发明的涵盖范围。
1.一种基于n-gram的新型关键词提取方法,其特征在于:包含以下步骤:
s1,获取用户输入的第一文本;
s2,定义n=1,对所述第一文本进行n-gram分割,得到单字符合集,计算每个单字符的出现概率;
s3,提取所述步骤s1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;
s4,定义n=2,对所述第二文本进行n-gram分割,得到双字符串合集,计算每个双字符串的出现概率;
s5,提取所述步骤s4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;
s6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。
2.根据权利要求1所述的一种基于n-gram的新型关键词提取方法,其特征在于:所述第一数量为5-30。
3.根据权利要求1所述的一种基于n-gram的新型关键词提取方法,其特征在于:步骤s6中,所述加入每个双字符串对应所述第三文本中的外围字符具体为:
定义m为大于等于零的整数,加入每个双字符串的前端对应所述第三文本中的前m-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2m个扩展字符串,其中m为0-m的任意整数。
4.根据权利要求3所述的一种基于n-gram的新型关键词提取方法,其特征在于:所述m为0-5的任意整数。
5.根据权利要求1所述的一种基于n-gram的新型关键词提取方法,其特征在于:所述计算并提取出现权重最高的第二数量的多字符串扩展具体为:
计算并提取出现概率最高的第二数量的多字符串扩展;
提取每个多字符串中属于所述单字符合集的单字符,累加所述每个单字符的出现概率p,根据p的大小定义所述多字符串扩展的出现权重;
提取出现权重最高的第二数量的多字符串扩展。
6.根据权利要求5所述的一种基于n-gram的新型关键词提取方法,其特征在于:所述第二数量为10-20。
PHP网站源码南宁百度关键词包年推广推荐梧州seo优化多少钱衡水百姓网标王推广多少钱忻州百度竞价公司保定网站建设公司贺州百度seo公司六安营销网站公司玉林网站优化按天扣费哪家好大丰网站建设设计价格盐田建站公司清徐百度网站优化排名报价桂林百度seo推荐通辽建站多少钱达州关键词排名包年推广多少钱楚雄百姓网标王哪家好武汉网站优化按天扣费报价福田网站排名优化公司丽江网站建设多少钱宁波百搜标王公司平凉品牌网站设计价格榆林百度seo报价抚州网站排名优化报价开封网站优化软件报价丹竹头网站排名优化价格普洱百姓网标王推广公司烟台关键词排名包年推广哪家好爱联优化公司通辽网站优化排名公司十堰网站seo优化哪家好南平外贸网站建设公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运