What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

页面搜集原理、技术和系统-搜集过程

Posted:2013-11-27 09:12:33 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7022

author

了解了一些页面搜集的基础知识后,我们来看看搜索引擎搜集一个页面的整个过程是怎么进行的。

下图是搜索引擎搜集网页的过程流程图:

搜索引擎搜集网页的过程流程图

搜索引擎搜集网页过程

  1. 调度器是整个搜集过程的核心,它内部保存有一个已访问URL库未访问URL库,统称URL库。一开始调度器会从未访问URL库中取出一条URL,分配给蜘蛛,让蜘蛛去抓取未抓取过的URL。
  2. 当一个蜘蛛得到URL的时候,它会向这个URL发出请求抓取,流程是:对该URL对应的域名进行DNS解析 -> 得到IP进行Socket连接 -> 连接成功发出http请求 -> 接收网页信息
  3. 蜘蛛得到网页信息后,会返回源代码给调度器,调度器会将源代码保存到网页数据库中。
  4. 调度器还会对抓取到的网页进行链接提取,将未抓取过的URL存放到未访问URL库中,并将刚刚抓取完的URL更新到已抓取URL库中。

小结

上述讲的都是搜索引擎网页抓取的整个过程,过程虽简单,但是一些细节上的问题还是存在的,比如如何避免网页重复搜集,如何首先搜集重要的网页等等


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:页面搜集原理、技术和系统-基础知识