![一种SEM关键词投放的处理方法、储存介质和设备与流程](https://img.xjishu.com/img/zl/2023/1/13/b898s5lqj.jpg)
一种sem关键词投放的处理方法、储存介质和设备
技术领域
1.本发明涉及搜索引擎营销sem关键词技术领域,更具体地说,涉及一种sem关键词投放的处理方法、储存介质和设备。
背景技术:2.搜索引擎营销sem(searching engine marketing)工具运用于平台已有庞大的内容体系。一般地,sem投放词元都来源于根据内容所提取的关键词,对于有一些纯做内容推广的平台,初期使用人工来提取关键词,但是当内容达到一定的量级时,这种通过人工手动提取关键词的方式就会存在诸多缺陷,比如精确度不高、投放策略差和工作难度大等,因为人工方式很难将所提取的关键词与已有的庞大内容进行比对,并在适配度达到一定理想值后进行有效投放。
技术实现要素:3.本发明要解决的技术问题在于,提供一种sem关键词投放的处理方法、储存介质和设备。
4.本发明解决其技术问题所采用的技术方案是:构造一种sem关键词投放的处理方法,包括以下步骤:
5.s1、基于分词模型对文档内容进行分词处理得到词元;
6.s2、根据预设过滤规则过滤掉一部分所述词元,剩下的所述词元为一级词元;
7.s3、计算每个所述一级词元在所述文档内容中的出现次数,并过滤掉所述出现次数小于第一预设次数的所述一级词元,剩下的所述一级词元为二级词元;
8.s4、计算每个所述二级词元的逆文档频率,过滤掉所述逆文档频率达到第一预设比例的所述二级词元;
9.s5、获取所述二级词元的词性,所述词性为行业词库中的词汇类别标签;每种所述词性对应设置系数评分值,根据所述二级词元在所述文档内容中的位置对应设置位置评分值,根据评分规则在所述二级词元中筛选出关键词;其中,所述评分规则根据所述系数评分值和/或所述位置评分值设定;
10.s6、当有新增文档内容时,则对所述新增文档内容执行步骤s1至s5;
11.s7、根据所述关键词建立可投放的关键词词库。
12.进一步,在本发明所述的sem关键词投放的处理方法中,所述步骤s1包括:
13.建立所述分词模型,所述分词模型按照字数相同的分词原则对所述文档内容进行多轮次分词处理,轮次之间的分词处理得到的所述词元的字数不相同。
14.进一步,在本发明所述的sem关键词投放的处理方法中,所述分词模型按照字数相同的分词原则对所述文档内容进行多轮分词处理包括:
15.所述分词模型按照字数相同的分词原则对所述文档内容分别进行两字一分、三字一分、四字一分、五字一分、六字一分和七字一分的六个轮次分词处理,对应得到两字词元、
三字词元、四字词元、五字词元、六字词元和七字词元。
16.进一步,在本发明所述的sem关键词投放的处理方法中,在所述步骤s3之后和所述步骤s5之前还包括:
17.筛选出所述二级词元中在所述文档内容中的出现次数大于第二预设次数的长词元,过滤掉所述长词元包含的短词元,并将所述短词元存放至人工处理区。
18.进一步,在本发明所述的sem关键词投放的处理方法中,所述根据预设过滤规则过滤掉一部分所述词元包括:
19.根据所述预设过滤规则过滤掉所述词元中的虚词词元、纯数字词元和纯英文词元中的至少一种,所述虚词包括连词、助词、语气词和介词中的至少一种。
20.进一步,在本发明所述的sem关键词投放的处理方法中,所述步骤s5包括:
21.每种所述词性对应设置一个大于基础评分值的所述系数评分值,未获得所述词性的二级词元的系数评分值则设置为所述基础评分值,根据所述词元在所述文档内容中的位置对应设置不同的位置评分值,根据所述评分规则在所述二级词元中筛选出关键词;其中,所述评分规则根据所述系数评分值和/或所述位置评分值设定。
22.进一步,在本发明所述的sem关键词投放的处理方法中,所述文档内容中的位置包括标题处、摘要处、内容处中的至少一种;所述标题处的位置评分值>所述摘要处的位置评分值>所述内容处的位置评分值。
23.进一步,在本发明所述的sem关键词投放的处理方法中,在所述步骤s5之后还包括:
24.对已投放并在预设时间内未被搜索或被搜索次数小于第三预设次数的所述关键词进行下线。
25.另外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上述的sem关键词投放的处理方法的步骤。
26.另外,本发明还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上述的sem关键词投放的处理方法的步骤。
27.实施本发明的sem关键词投放的处理方法、储存介质和设备,具有以下有益效果:
28.本发明解决了人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
附图说明
29.下面将结合附图及实施例对本发明作进一步说明,附图中:
30.图1是本发明实施例提供的sem关键词投放的处理方法的流程图。
具体实施方式
31.为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
32.在一个优选实施例中,参考图1,本实施例的sem关键词投放的处理方法包括以下
步骤:
33.s1、基于分词模型对文档内容进行分词处理得到词元。具体地,文档内容为文档文字,文档形式包括但不限于网页、word、pdf等,文档中具体内容可以是网站平台上的产品相关信息、行业信息等等。另外,对文档内容进行分词处理可以是对平台中的单独一篇或者多篇同时处理,还可以是整个网站平台中的庞大内容体系进行分词处理。
34.s2、根据预设过滤规则过滤掉一部分词元,剩下的词元为一级词元。具体地,预设过滤规则主要是用来进行第一轮词元筛选,优先剔除掉一些没有完整意义的词汇,比如包括但不限于介词、连词、助词、语气词等,只保留词元中的名词和动词等这些有完整意义的词汇。
35.s3、计算每个一级词元在文档内容中的出现次数,并过滤掉出现次数小于第一预设次数的一级词元,剩下的一级词元为二级词元。可选地,还可以计算每个一级词元在单篇文档内容或者所有文档内容中的词频,即出现占比,也就是出现次数占文档内容词元总数的比例,把小于一定比例的一级词元剔除掉,比如可以把词频小于5%的词元过滤掉等。
36.s4、计算每个二级词元的逆文档频率,过滤掉逆文档频率达到第一预设比例的二级词元。具体地,关键词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,这就是逆文档频率。所以不能只是通过正向文档频率来决定一个关键词的重要性,比如文档中“的,你,她”等词的正向文档频率很高,但是不能说明这些词很重要,因此需要设置逆向文档频率来去除这类词。
37.s5、获取二级词元的词性,词性为行业词库中的词汇类别标签。可选地,词性的获取途径可以通过与外部连接,利用现在有的行业词库,按照各种类别给二级词元打上所属类别标签,并将该类别作为一种词性,比如电线电缆、电力词汇、低压电气等,平台也可以通过自建行业词库等赋予二级词元相应词性。此外,当平台词库逐渐壮大起来时,还可以对词性进行更细致的划分。每种词性对应设置系数评分值,根据二级词元在文档内容中的位置对应设置位置评分值,根据评分规则在二级词元中筛选出关键词;其中,评分规则根据系数评分值和/或位置评分值设定。
38.s6、当有新增文档内容时,则对新增文档内容执行步骤s1至s5。具体地,可以通过设置定时任务,定时提取新增文档内容中的关键词。
39.s7、根据关键词建立可投放的关键词词库。可选地,关键词词库会根据平台内容的更新而更新。
40.本实施例中,根据已有的内容体系,直接基于内容分词,将分出的词元再与内容进行比对,当词元与内容的适配度达到一定的理想值之后,再将该词进行投放,解决了人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
41.在一些实施例的sem关键词投放的处理方法中,步骤s1包括:
42.建立分词模型,分词模型按照字数相同的分词原则对文档内容进行多轮次分词处理,轮次之间的分词处理得到的词元的字数不相同。比如,分词模型按照字数相同的分词原则对文档内容分别进行两字一分、三字一分、四字一分、五字一分、六字一分和七字一分的六个轮次分词处理,对应得到两字词元、三字词元、四字词元、五字词元、六字词元和七字词元。
43.本实施例中,分词模型按照字数相同的分词原则对文档内容进行多轮次分词处
理,大大节省人工提取关键词的时间成本,有效降低关键词的提取难度,进一步提高所投放关键词的准确性。
44.在一些实施例的sem关键词投放的处理方法中,在步骤s3之后和步骤s5之前还包括:
45.筛选出二级词元中在文档内容中的出现次数大于第二预设次数的长词元,过滤掉长词元包含的短词元,并将短词元存放至人工处理区。作为选择,也可以筛选出二级词元中在文档内容中的出现占比大于一定比例的长词元。具体地,长词元最短可以是三字词元,只要被包含在长词元中就算是短词元。鉴于根据分词模型得到的词元很有可能会被分成很多细碎没意义的短词,若不进行短词的过滤,则很多无意义的短词将会被投放出去,所以当某些长词出现频率比较高的时候,若长词包含了短词,将短词元过滤掉,但是这一步被过滤掉的短词需要整理起来,可交给人工审核一次,将一些有价值的短词也进行投放,比如“肖特基二极管”分出来的“二极管”就可以进行投放等等。
46.本实施例中,通过过滤长词元中的短词元,能够最大地保证所得到的关键词的质量,有效降低关键词的提取难度,提高所投放关键词的准确性。
47.在一些实施例的sem关键词投放的处理方法中,根据预设过滤规则过滤掉一部分词元包括:
48.根据预设过滤规则过滤掉包括但不限于词元中的虚词词元、纯数字词元和纯英文词元等,虚词包括但不限于连词、助词、语气词和介词等。
49.本实施例中,能够解决人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
50.在一些实施例的sem关键词投放的处理方法中,步骤s5包括:
51.每种词性对应设置一个大于基础评分值的系数评分值,未获得词性的二级词元的系数评分值则设置为基础评分值,根据词元在文档内容中的位置对应设置不同的位置评分值,根据评分规则在二级词元中筛选出关键词;其中,评分规则根据系数评分值和/或位置评分值设定。可选地,基础评分值可以为1,位置评分值根据词元位置重要程度来设置,即位置越重要,分值越大,则每种词性对应设置一个大于1的系数评分值,评分规则可以是对词元的系数评分值和/或者位置评分值进行累加计算,分值越大,该词元越重要或者说价值越大。
52.本实施例中,通过评分规则对筛选出来的词元进行整合得到可投放关键词,能够解决人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
53.在一些实施例的sem关键词投放的处理方法中,文档内容中的位置包括标题处、摘要处、内容处中的至少一种;标题处的位置评分值>摘要处的位置评分值>内容处的位置评分值。比如,标题处的位置评分值可以为3,摘要处的位置评分值为2,内容处的位置评分值为1等。
54.本实施例中,通过评分规则对筛选出来的词元进行整合得到可投放关键词,能够解决人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
55.在一些实施例的sem关键词投放的处理方法中,在步骤s5之后还包括:
56.对已投放并在预设时间内未被搜索或被搜索次数小于第三预设次数的关键词进行下线。比如将已投放但是4个月未被搜索的关键词进行下线,不再进行投放。
57.本实施例中,通过下线一些在一定时间内搜索量很小的关键词,能够进一步提高所投放关键词的准确性。
58.在一个优选实施例中,本实施例的计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行如上述的sem关键词投放的处理方法的步骤。
59.本实施例中,能够解决人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
60.在一个优选实施例中,本实施例的计算机设备包括存储器和处理器,存储器中存储有计算机程序,处理器通过调用存储器中存储的计算机程序,执行如上述的sem关键词投放的处理方法的步骤。
61.本实施例中,能够解决人工提取关键词的缺陷,有效降低关键词的提取难度,提高所投放关键词的准确性。
62.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
63.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
64.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
65.以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施,并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰,均应属于本发明权利要求的涵盖范围。