What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

页面搜集原理、技术和系统-可扩展搜索子系统

Posted:2013-11-27 09:14:42 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7026

author

在《2.2、页面搜集原理、技术和系统–搜集过程》中我们知道调度器需要分配蜘蛛去抓取网络上的网页,但是网络上的页面数量是百亿级别的,如果调度器只是简单的一个服务器,那么抓取的速度是远远不足的。因此,搜索引擎需要一个可扩展的搜索子系统,允许多台服务器同时进行网页的抓取工作。

可扩展搜索子系统体系结构

从下图可以看出,搜索引擎需要调度器存在多个协调进程(也成节点,即服务器)同时工作,并行的到网络上抓取网页。

可扩展搜索子系统体系结构

存在的问题

  • 1、搜索引擎要确定一个在节点间动态划分网页URL的算法,以保证不同的节点搜集的网页不会重复,并且在节点内抓取进程可以自由获取一个任务。
  • 2、搜索引擎要考虑系统的动态配置问题,即允许在运行过程中添加和删除节点机器。


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:页面搜集原理、技术和系统-如何首先搜集重要的网页