营销分享 > 技术分享 >

百度seo网站优化之蜘蛛抓取页面策略

下面主要从6个方面分别介绍百度seo网站优化要了解的搜索引擎抓取页面应该遵循的策略。
 
1.友好性
 
对网站而言,蜘蛛程序访问网站抓取页面时会占用一定的带宽资源,可能会影响用户正常访问网站。因此,蜘蛛程序要确保对网站的友好,既能更多地抓取有价值的信息,又不影响用户使用网站的体验。如根据网站的实际情况,制定合适的抓取频率,合理制定蜘蛛光顾的时间等。
 
2.根据不同代码采取不同的抓取策略
 
网站管理者制作网站页面需要遵循一套通用的代码规则。例如,404代码的页面表示失效不存在了,403代码的页面表示目前禁止访问等。蜘蛛程序抓取页面时,要针对不同的返回码提示,采取不同的抓取策略,如对404代码的页面,第一次抓取后,就没必要再重复抓取了。
 
3.根据页面类型动态地抓取
 
针对不同的网站和相同网站的不同页面,蜘蛛程序要注意识别重要和次要的页面,将更多的资源用在那些具有重要的、有价值的、更新频率高等特点的网站和页面上。搜索引擎要制定多个指标综合判断,形成合理的判定页面ABC类型的方法,并做到动态调整。

 
百度seo网站优化
4.避免重复抓取
 
蜘蛛程序在抓取页面时需要判断是否已经抓取过,只有没有抓取过的页面才放入总页面数据库中,重复抓取相同的页面没有实际意义。因此,蜘蛛程序需要快速判断页面地址(URL)是否已经存在于总链接库中,或者判断出该新URL指向的页面实际已经收录,只不过新URL包含很多无效的参数。
 
5.提供多种收录方式
 
受网络环境、网站建设等因素影响,蜘蛛程序并不能抓取到互联网上的所有信息,或者有些信息需要等待更长的时间才有可能被蜘蛛程序发现。因此,网站管理人员需要通过其他方式使搜索引擎尽快收录自己的网站。目前,搜索引擎主要采用开放平台,接受用户数据提交的方式,弥补蜘蛛程序的不足。
 
6.反作弊
 
互联网上的信息鱼龙混杂,很多非法的、低质量的页面充斥其中,蜘蛛程序如果抓取这些页面会浪费资源,还容易引起用户的反感。因此,搜索引擎需要针对垃圾页面描述出主要特征,将这些数据系统化,形成反作弊系统,使蜘蛛程序能够智能地避开这些页面。
 
当然,百度seo网站优化搜索引擎抓取页面的策略不止这6个方面,但它们具有一定的代表性。为了更直观地理解蜘蛛程序抓取页面的工作,下面通过搜索引擎抓取内容模拟器来模拟蜘蛛程序的抓取。

相关阅读:
搜索引擎优化初学者要懂得的规范
 

上一篇:如何选择优秀的网站建设公司?
下一篇:[百度seo优化排名]搜索引擎分析和处理页面的原理   

推荐文章

     

久格科技(深圳)有限公司.版权所有 粤ICP备19137149号

备案查询地址: beian.miit.gov.cn

      

我们的服务

系统产品

营销分享

联系我们

扫一扫关注我们

久格科技(深圳)有限公司.版权所有 粤ICP备19137149号

网站地图