What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

页面搜集原理、技术和系统-如何首先搜集重要的网页

Posted:2013-11-27 09:14:19 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7025

author

在《2.4、页面搜集原理、技术和系统–如何避免网页重复搜集》中我们知道调度器通过未访问URL表和已访问URL表来实现避免网页重复搜集,但是因为网络上的URL很多,如果调度器不对URL进行排序,都是依次搜集,那么可能重要的网页会被排在很后面,这样重要的内容可能很长时间都不会被抓取到,一个好的策略就是先抓取重要的网页,那么如何实现呢?本文黄聪就和大家分析一下。

背景

Web上信息具有异质性和动态性,由于受时间和存储空间的限制,即使是最大的搜索引擎也不可能将全球所有的网页全部搜集。一个好的搜索策略是优先搜集重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。并且要采用分布并行的体系结构来协助工作。

网页重要度特征

在早期的搜索引擎基本都是通过以下几点来判断一个网页的重要程度的:

  • 1、网页的外链很多。
  • 2、网页的父网页外链很多。
  • 3、网页的镜像度高,被转载次数多。
  • 4、网页的目录深度小,易于用户浏览。

判断出来哪些网页比较重要,调度器就可以将重要的URL排在前面提前被抓取,已保证重要的网页可以及时被收录。

小结

本节讲解了搜索引擎如何实现重要页面实现抓取,这也意味着站长们需要争取让搜索引擎给自己的评分尽量的高,这样才能保证自己的网页能够优先被抓取。


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:页面搜集原理、技术和系统-如何避免网页重复搜集