当前位置: 网站首页 > 北京SEO > 正文

搜索引擎优化教程SEO技术(seo经典成功案例)

三石哥三石哥 2022-08-20 17:20:35 130

最近看了关于推广的4本书,有两本书让我印象最深刻,一本是《走进搜索引擎》,另外一本是《SEO 搜索引擎优化:技巧、策略与实战案例》,这两本书的特点是前者用21万字详细说明了搜索引擎的原理,后者穿插了一些实际的案例来讲解具体优化技巧,所以从一定程度上讲,你看完两本书之后,你如果说还不会做搜索引擎优化、还是被割韭菜,那么不好意思,你可以远离这个行业了。

但是第1本书的唯一的缺点就是有一定的专业度,对新手小白真的不是很友好,因为这本书的作者是一位博士。书中穿插了不少公式,所以降维打击还是挺厉害的。

这本书把搜索引擎划分了4个部分,下载系统、分析系统,索引系统、查询系统。还是老规矩,我简单的4个部分做个总结。

一、下载系统

下载系统事实上其实也就是我们说的下载各类型的页面,谈到下载系统肯定要少不了爬虫系统,这部分内容主要讲起了他从以什么方式去抓页面和抓取策略的介绍,我直接拿例子做说明,在下载系统中按照域名分解抓取任务的工作由一个调度员的模块来处理。通过域名分解将不同的网页调度给不同的爬虫进行抓取。

(1)调度员通过更新规则向URL请求一个URL 抓取任务。

(2)调度员计算出该URL,然后分配给编号为0的爬虫抓取。

(3)爬虫0实际抓取的网页存放在 Page库中。

(4)爬虫0在抓取的网页中提取其他链接后反馈给调度员。

(5)调度员判断网页类型,并设定初始更新时间等后存放在URL库中,继续转(1),周而复始。

搜索引擎优化教程SEO技术(seo经典成功案例)

二、分析系统

分析系统其实就是信息抽取及网页信息结构化。这句话怎么理解呢?事实上蜘蛛在抓取的url中去分析处理页面信息。在这一部分我们就需要注意点一个叫标签树的东西。而在处理这个过程需要标签分析栈,在这个过程中,其实就是提取代码块中的文本,我们这里举个例子:

测试1

测试2

测试3

...

分析系统从进栈到退栈之后,只会提取到测试1,测试2,测试3等文本信息,那么如何判断出哪些是正文信息呢?这里就需要用到投票方法,通过不同的规则去打分,打分越高的那一部分就是正文部分,怎么理解呢?比如我们得到文本块文本长度<10个字,得分为0,10-50个字得分5等依次类推。同样的,文本块文本在左侧位置加分5,右侧位置是0,中间部分是10,换句话说,打分越高的会被判断成正文,打分低的会被判断成广告或者无效信息,那么百度判断内容的时候,也是根据这些内容判断的。

提到分析肯定就少不了网页查重。这也是决定了页面是否收录的关键因素,在这一部分的实现方法中用的最多的就是l-Match算法和Shingle 算法。

这两种算法的不同之处在于前者去掉高频和低频词汇后的词汇通过排序得到一个字符串,使用签名算法获得该字符串的签名。如果有其他文档和这个签名值相同,则判定为相似。

后者采取抽瓦片方式去把一个文档转化为一组字符串集合(每个元素为一个Shingle),因此判断两个文档的相似性就转化为字符串集合的相似性。(我知道你听不懂,我举个例子)

比如这有两段话:

第一段:中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报。

第二段:米卢率领中国足球队首次杀入世界杯决赛阶段,搜狐体育播报

l-Match算法

搜索引擎优化教程SEO技术(seo经典成功案例)

Shingle 算法

搜索引擎优化教程SEO技术(seo经典成功案例)

一般说来,网页查重至少需要如下3个主要步骤:

(1)特征抽取

(2)相似度计算、评价是否相似。

(3)消重

PS:判断内容原创度方面还是依据时间戳和爬虫爬取页面先后顺序,也就说先被爬虫爬取的,时间早的,基本判断是原创。

到达这一步之后就会分词,事实上市面上分词软件有很多,这里就不做做介绍了,分词基本上是按照字典分词和统计分词方法。我这里举个例子:

走进搜索引擎

分词后的最终实际结果是走进/搜索引擎,不要问为什么?

这里提到一个PR模型,也就是我们经常说的网页投票。从实际的应用来看就是我们需要对页面进行内链处理。

总结 一下:

搜索引擎优化教程SEO技术(seo经典成功案例)

三、索引系统

索引系统是一个复杂的工作流程,这里面涉及到倒排索引,倒排表,临时倒排文件,最终倒排文件,这里大概就讲一下系统会把一个个页面处理成文档编号,然后通过一系列计算形成正排表和倒排表。

四、查询系统

4个系统中只有查询系统是面对用户的,对于信息的量化问题,我们需要知道一个「信息嫡」(shang)的概念。另外用户提交的是一个query,但对搜索引擎来说,它需要处理的是一个检索词。这一部分会用到布尔检索模型。我们还是举个例子:比如用户搜索引擎系统构成这个词,那么下面有3个段落:

(1)在传统搜索引擎架构中,搜索引擎由4个系统构成,分别是下载系统、分析系统、索引系统及查询系统。

(2)机械行业内一般把小型挖掘简称为小挖,小挖由5个系统构成,分别是……,详细地理解这些名词可以使用Google 搜索引擎搜索一下。

(3)搜索引擎有4个主要功能模块,分别是下载系统,分析系统,索引系统和查询系统。这4个系统是搜索引擎的核心,其中查询系统是搜索引擎唯—直接面对客户的系统。

显而易见的,用户在查询搜索引擎系统构成,而百度是在检索搜索引擎、系统构成,那么以上3个页面中1、2都 包含这两个词,尤其第一个,在直观来讲,1相关性更好,但是布尔检索模型只解决有和没有问题,不解决好和不好的问题。

所以就要引入向量空间模型,这个模型把文字进行向量相似度计算,向量化的过程对一个文档按照关键词维度进行向量化,举个例子,走进搜索引擎,学习搜索引擎,那么分词后结果是,走进(1),学习(1),搜索引擎(2),那么这个短句的向量化计算是(2,1,1)。

按照刚才搜索结果来看,事实上是无法搜索出(3)的,所以,我们就需要经典的TF/IDF权重计算方法。(TF/IDF参考相关资料)

那么页面是如何排序的呢?算法通过计算文档向量和查询向量的夹角余弦求得向量相似度(一个可以量化的数值),排序就按照这个数的大小关系进行排列。

由于搜索结果是海量的,用户也几乎不会耐着性子看完全部的检索结果。有调查表明,大部分的用户使用搜索引擎查询时,在得到搜索结果页后不会向下翻页,而只关注搜索结果的第1 页。

总结一下:

查询系统中所谓的页面排序,事实上是依据相关度、页面重要级别等因素排序,这也是为什么有的人觉得同样都是一篇文章,为什么人家的页面比你排名高,原因在于别人的页面被投票次数多的多。(这个页面投票可能是外链或内链投票)

看完这两本书,感触颇深,这两本书的含金量都远高于其他SEO的书籍,至少在我目前看到书中,已经找不到跟这两本书所媲美的了。

相信行业的从业人员,除了采集和快排,书中的很多东西恐怕很多人也不了解,也不熟悉,所以如果你对这方面的东西感兴趣,建议好好看看,最起码可以避免被割韭菜,还能变相的提高知识面。

比如说花几千学个TDK?或者说花几千就学到个基础的东西,拉倒吧,这TM就是割韭菜。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。

转载请注明来自 专注SEO技术,教程,推广 - 8848SEO,本文标题: 《搜索引擎优化教程SEO技术(seo经典成功案例)》

标签: 引擎优化SEO SEO优化技术

  • 上一篇: 专业培训seo的机构有效果吗(seo帮助怎么样)
  • 下一篇: 推广微信号有哪些途径(4种常见的推广方式)

猜你喜欢

  • SEO优化技术详解,掌握SEO优化的最新技术(快速提升网站流量和排名)

    SEO优化技术详解,掌握SEO优化的最新技术(快速提升网站流量和排名)

  • 如何通过优化提升网站排名(SEO优化技术方式)

    如何通过优化提升网站排名(SEO优化技术方式)

  • 如何提升网站SEO优化技术水平(实用技巧帮你快速上手)

    如何提升网站SEO优化技术水平(实用技巧帮你快速上手)

  • 如何快速提高网站的优化速度(百度SEO优化技术与优化策略实践)

    如何快速提高网站的优化速度(百度SEO优化技术与优化策略实践)

  • 北京SEO
  • 上海SEO
  • 广州SEO
  • 深圳SEO
  • SEO技术
  • SEO服务
  • SEO培训
  • SEO教程
  • 资讯百科
  • 网站建设
  • 百度优化
  • SEO优化
  • 网络推广
  • 抖音推广
  • 科技知识
  • 游戏推广
关于我

关注微信送SEO教程

  • QQ

  • 微博

  • 邮箱

搜索
最新文章
  • 如何投诉抖音虚假发货(抖音虚假发货投诉指南)
  • 如何在抖音上便宜充值(找到最优惠的充值方式)
  • 杞县seo攻略知识方案(杞县seo排名贴士)
  • 永嘉seo秘诀知识方案(永嘉seo排名攻略)
  • 抖音商家验券指南——如何正确验证(教你如何通过抖音验证)
  • 如何在抖音商家上线团购套餐(从步骤到技巧)
  • 五种实用的搜索引擎优化方法(提高网站排名)
  • 白帽SEO优化手法分享(掌握这五种手法)
  • 五招教你快速提升排名(实用技巧帮助你恢复搜索引擎排名)
  • 抖音虚假发货预警(识别虚假店铺,保护购物权益)
热门文章
  • 抖音小店如何合法交税(企业店铺如何避税优惠政策一网打尽)
  • 如何做好新站改的网站优化(让您的新网站快速得到搜索引擎认可)
  • 提高网站SEO排名的10个实用技巧(教你提升网站搜索引擎排名)
  • 从零开始,如何优化网站SEO排名(提升网站流量与品牌价值)
  • 如何应对网站镜像的问题(解决网站镜像带来的风险和挑战)
  • 百度SEO优化小技巧(百度SEO技巧分析介绍)
  • 密度如何布局,提高网站SEO优化效果(让你的网站更有竞争力)
  • 如何上架抖音团购功能(抖音电商新功能)
  • 探究网站SEO优化的有效方法(提升排名的技巧与实践经验)
  • 探究搜索引擎算法背后的逻辑与关键性(外链、内链与的指数之争)
  • 抖音双11好物节,省钱卡带你畅享特惠购物(双11必抢)
  • 新站如何快速排名前50名?
  • 网站制作中的三大细节不能忽视(提高网站制作质量的关键)
  • 2023年抖音双11发货时间曝光(快递配送情况及须知一览)
  • 禹城seo提升技术方法(禹城seo攻略指南)
  • 解析抖音铁粉标志的含义与特征(探究抖音铁粉的心理与行为)
  • 网站优化排名的10个技巧(SEO操作指南,提升网站排名)
  • 如何将子账号绑定到TikTokShop主账号中(TikTokShop子账号绑定操作指南)
  • 如何通过SEO技术(让企业网站排名更靠前)
  • 为什么抖音搜索结果为空(解决抖音搜索结果为空的方法)
热门tag
抖音 优化 提升网站排名 百度SEO优化 网站优化 提高网站排名 抖音小店 SEO优化技巧 SEO优化 网站排名 网站SEO优化 seo优化 seo网站优化 seo 小红书 关键词优化 百度SEO排名 SEO优化排名 关键词排名 搜索引擎优化
友情链接

PHP网站源码双龙百度竞价包年推广龙岗网页制作广州百度关键词包年推广布吉网站优化排名布吉网站优化沙井外贸网站建设塘坑百搜词包塘坑网络推广坑梓网站关键词优化福永如何制作网站东莞SEO按天收费大鹏企业网站建设福永英文网站建设坂田设计网站坑梓SEO按效果付费松岗网站设计模板惠州设计网站荷坳企业网站建设宝安网站设计大浪网页设计坑梓外贸网站制作惠州网页制作大浪网站制作吉祥模板制作大浪网站推广方案南山模板制作荷坳关键词排名深圳网站搭建南联关键词按天收费坂田企业网站制作歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化