百度搜索引擎排名原理(搜索引擎的高级搜索技巧)
三石哥 2022-09-03 09:36:02 153
《搜索引擎原理系列教程》这个虽然称不上书籍,但由于里面信息量以及内容比较实用,也弥补了百度白皮书的一些短板——话语浮于表面,另外值得鼓励的是,这个教程完全是由一个民间的SEO爱好者总结,这份精神值得称赞。我这里仍然想讲三个方面,也是我们SEOER比较关心的三个方面:收录、索引、排名。
一、收录
搜索引擎搜集网页过程,收录其实是个复杂的过程,他简单的分为这四个步骤:
1、 调度器是整个搜集过程的核心,它内部保存有一个已访问URL库和未访问URL库,统称URL库。一开始调度器会从未访问URL库中取出一条URL,分配给蜘蛛,让蜘蛛去抓取未抓取过的URL。
2、 当一个蜘蛛得到URL的时候,它会向返个URL发出请求抓取,流程是:对该URL对应的域名进行DNS解析->得到IP进行Socket连接->连接成功发出http请求->接收网页信息。
3、 蜘蛛得到网页信息后,会返回源代码给调度器,调度器会将源代码保存到网页数据库中。
4、 调度器会对抓取到网页迕行链接提取,将未抓取过的URL存放到未访问URL库中,并将刚刚抓取完的URL更新到已抓取URL库中。
这其中会涉及到去重
调度器的工作流程
1、从未访问URL表中依次取出URL,分配给各个蜘蛛。
2、蜘蛛得到URL,进行抓取,得到网页的源代码,对该源代码进行URL的提取,获得该网页包含的所有URL。
3、调度器依次查看得到的URL是否在已访问URL库中存在。如果存在,则说明已经被抓取过,那么将该URL丢弃;如果不存在,说明这个URL没有被抓取过,则顺序添加到未访问URL表中,等待之后抓取。
4、重复步骤1,直到未访问表为空。
二、索引
网页预处理
1、给原始网页建立索引。
2、针对搜索有网页库进行网页切分,将每一个页面转化为一组词的集合。(正向索引)
3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)
总的来说,搜索引擎从网页数据库获取网页然后进行代码过滤,然后提取正文信息后进行切词,之后的步骤就是对关键词集合进行筛选,得到网页关键词正向索引,最后才将搜索引擎将正向索引转换未关键词到网页的倒排索引,正是这个技术,搜索引擎才有可能在1S内给用户呈现搜索结果。
另外,这其中搜索引擎做的动作就是网页净化和消重,除了去除网页内噪音内容(如广告、版权等),提取网页主题和相关内容外,去除网页集合中内容重复内容。
有同学可能会问,搜索引擎如何识别主体内容的呢?事实上,算法是靠建立HTML标签树和投票方法识别正文文本。
比如,我们定一下规则,
1、如果文本块文本长度少于10个字,0分。介于10~50个字得5分。介于50~250个字,得8分。超过250个字,得10分。
2、文本块文本位置在右侧,得0分。在顶部,得3分。在左侧,得5分。在中部,得10分。
那我们就得出,页面TITLE得分9,正文加粗H1标签得分8等等,DIV部分的AD部分得分0,丢弃。
(以上举例只为了参考,跟实际算法没有关联)
搜索引擎进行网页消重都要经过3个步骤,首先是特征抽取(这其中涉及到I-Match算法、Shingle算法),然后相似度计算、评价是否相似,最后才是消重。
事实上,搜索引擎算法和用户交互的过程就是一个查询的流程,比如用户搜索“搜索引擎原理”,算法分词后得到“搜索引擎”,“原理”,在倒排索引表中找到包含这两个文档列表,求交,然后将用户查询以及上一步找到文档列表中被一条记录进行向量化后,求查询向量和文档向量的相似度,然后从高到底排序,最后就是我们看到的最终搜索结果。
三、排名
最后就举个例子作为结尾:
搜索引擎网页权重=网页中词项基本权重+链接权重+用户评价权重
网页中词项基本权重
1、例如某个关键词”搜索引擎”在<h1><b>搜索引擎</b></h1>的环境下,权重应该为:WBT=W+W, (h1)+W,(b)=10+12+4=26
2、关键词“搜索引擎”可能还在文档中其他地方出现n次,每次出现都可以计算一个WBT1、WBT2、WBT3…WBTn,那么可以计算出整个文档“搜索引擎”这个关键词的权重为︰
wBT(关键词,网页)=WBT,+ WBT,+…+WBTT=>wBT
相关排序–链接权值的计算
相关排序–用户评价权值的计算
….
最终权值的计算
搜索引擎可以通过配置KWB、KWL、KWU来设置侧重哪些因素影响权重,比如如果搜索引擎设置了KWL为0.8,KWB、KWU均为0.1,那么说明该搜索引擎更侧重链接对权重的影响,通过这样的算法,可以很轻松的算法上的调整。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自 专注SEO技术,教程,推广 - 8848SEO,本文标题: 《百度搜索引擎排名原理(搜索引擎的高级搜索技巧)》
标签: 百度搜索引擎
- 上一篇: 如何做网站seo排名优化(seo推广网站优化上排名教程)
- 下一篇: 网站seo怎么设置TDK(网站快速收录的技巧)
猜你喜欢
-
百度判定优质网站的主要依据(探秘百度搜索引擎算法中的优质网站评估标准)
-
如何提高网站在百度搜索引擎的排名(优化、制定策略、避免降权)
-
如何让网站受百度搜索引擎青睐(掌握这6大特征)
-
百度搜索引擎如何衡量网页质量(提高搜索结果的准确性)
- 关于我
-
关注微信送SEO教程
-
QQ
-
微博
-
邮箱
-
- 搜索
- 最新文章
-
- 打造个人网站,展示你的独特风采(个人网站的运作原理及重要性)
- 如何挖掘长尾提升网站排名(百度SEO优化的五大方案及分类组合技巧)
- 提升百度SEO排名的5个方法(重点知识介绍、原则、排名总结及常见问题解决)
- 如何迅速提升网站SEO(百度SEO优化快速的方法指南)
- 网站快速排名的方法(提升网站在搜索引擎中的排名)
- 网站优化排名的十大方法(提高搜索引擎曝光率,获得更多流量)
- 掌握长尾优化的技巧(从而提高网站的可见度)
- 高质量网站外部链接的获取方法(助力网站SEO优化的有效技巧)
- 实现网站优化,提升百度SEO排名(技巧、原因分析和方案步骤)
- 2024年SEO优化调整方案(从到内容,让你站在搜索引擎前列)
- 热门文章
-
- 优化SEO(SEO的重要性及如何提升企业收益)
- 提升网站排名的SEO技巧(全面分析SEO优化方法)
- 网站优化(分析搜索引擎收录的原因,提高网站排名)
- SEO提升的方法(一步步教你如何提升排名)
- 如何利用优化提升网站排名(SEO优化排名的技巧与方法)
- 百度SEO优化排名流程详解(提升网站排名,实现流量增长)
- 如何打造一个能够吸引流量的高效企业网站(企业网站建设中SEO和网站优化的重要性)
- 如何提升网站收录(提高网站排名的有效方法和技巧)
- 《解密抖音直播音浪——找到隐藏的“音浪”窍门》
- 网站优化技巧大揭秘(提高百度SEO排名的七步骤)
- 如何撰写抖音小店商品推荐语(15个段落助你轻松写出优秀的推荐语)
- 抖音小店提现攻略(从绑定银行卡到操作步骤)
- TheCompleteGuidetoBuildinganEnglishForeignTradeWebsite
- 如何提高抖音直播间转化率(了解直播间转化率的含义及关键因素)
- 百度排名大动荡,如何应对网站优化(小编教你网站优化大作战)
- 如何打造受欢迎的外贸营销网站(提高外贸营销效果的关键在于网站设计和内容)
- 从挖掘到内链布局(全面解析SEO优化技巧)
- 如何优化网站的SEO(实现长期稳定的排名推广营销)
- 全面了解SEO优化的关键因素(完整的SEO优化需要包括哪些因素)
- 如何优化排名(全面解析SEO优化技巧)
- 热门tag
-
抖音 优化 提升网站排名 百度SEO优化 网站优化 提高网站排名 抖音小店 SEO优化技巧 SEO优化 网站排名 网站SEO优化 seo优化 seo网站优化 seo 小红书 关键词优化 百度SEO排名 SEO优化排名 关键词排名 搜索引擎优化
- 友情链接
-
- 知文社
- 番茄宠物网
- 狗猫街
- 花之卉