营销分享 > 技术分享 >

搜索引擎是如何抓取内容的?

SEO优化是一种低成本或零成本的营销方式,但有别于其他营销方式,要做好SEO,需要了解和熟悉seo优化和搜索引擎优化技术知识。
 
做好SEO首先要了解搜索引擎优化技术,其基础知识包括搜索引擎原理,搜索引擎的工作过程基本上可分成3个阶段。首先进行爬行抓取,然后进行数据预处理,包括提取文字、中文分词等,最后给予排名输出。本篇将会重点介绍搜索引擎是如何爬行抓取内容的。
 


爬行的策略


爬行主要按两种策略执行:一是深度优先爬行,二是广度优先爬行。

1)深度优先爬行
蜘蛛从A页面顺序爬行到A1、A2、A3、A4页面,爬行到A4页面后发现没有页面了,于是返回A页面,以此类推,再爬行到B1、B2、B、B4页面。深度优先爬行的主要特点是蜘蛛会沿着一条线一直抓取下去,直到最后,然后返回,再开始另一条线。


2)广度优先爬行
广度优先爬行是指蜘蛛在一个页面上发现多个链接时,首先将所有第一层的链接抓取一遍,然后沿着第二层链接向第三层链接爬行。

归根到底,只要给蜘蛛足够的时间,无论广度优先爬行,还是深度优先爬行,都能爬完整个网站。SEO的一个基本原则是要给蜘蛛节省宽带和资源,毕竟蜘蛛的资源不是无限的,也有满负载的时候。SEO人员要做的工作之一就是为蜘蛛指明一条正确的路径,尽量减少蜘蛛的工作强度。
 

另外,还需注意尽量避免蜘蛛重复爬行数据,造成重复收集的原因是蜘蛛并没有记录访问过的页面URL,或者一个页面有多个URL指向它。

针对这个情况,搜索引繁增加了一个额外的技术,分别定义两个不同类型的表,即已访问表和未访问表,依靠此技术就可以简单地解决重复收集的难题。在蜘蛛抓取到一个链接后,从这两个表中可以判断此链接是否已经被访问过,如果没有被访问过,抓取回来就添加到未访问表中。


 
上一篇:搜索引擎优化中的“蜘蛛”是什么?
下一篇:网页首页的权重是越高越好的吗?   

推荐文章

     

久格科技(深圳)有限公司.版权所有 粤ICP备16061052号

备案查询地址: beian.miit.gov.cn

      

我们的服务

系统产品

营销分享

联系我们

扫一扫关注我们

久格科技(深圳)有限公司.版权所有 粤ICP备16061052号

网站地图