页面搜集原理、技术和系统-如何避免网页重复搜集

Posted:2013-11-27 09:13:33 - comments | 作者： @果尔 @ SEO培训学院修订1.4 ID:7024

在《2.2、页面搜集原理、技术和系统–搜集过程》中我们知道调度器会派发URL给各个蜘蛛进行网页的抓取，但是怎样才能避免同一个URL会被重复的抓取呢？调度器是如何确保分配给每个蜘蛛都是最合理的呢？本文黄聪就和大家分析一下。

下面我们就看看调度器是怎么实现避免网页重复搜集的：

如何避免网页重复搜集

上图中，我们发现调度器中有一个重要的模块是URL库，URL库又由已访问URL库和未访问URL库来组成。调度器就和通过这个URL库来实现避免网页重复搜集的。

调度器的工作流程

1、从未访问URL表中依次取出URL，分配给各个蜘蛛。
2、蜘蛛得到URL，进行抓取，得到网页的源代码，对该源代码进行URL的提取，获得该网页包含的所有URL。
3、调度器依次查看得到的URL是否在已访问URL库中存在。如果存在，则说明已经被抓取过，那么将该URL丢弃；如果不存在，说明这个URL没有被抓取过，则顺序添加到未访问URL表中，等待之后抓取。
4、重复步骤1，直到未访问表为空。

小结

虽然调度器通过已访问URL表和未访问URL表理论上实现了避免网页重复搜集的问题，但是由于域名和IP存在一对一、一对多、多对一、多对多的情况，难免还是会存在个别网页重复搜集的问题，这些就不在本文展开来讲了。

What's Hot