页面搜集原理、技术和系统-搜集过程

What's Hot

英雄榜：果尔网稿件征集启示

SEO优化案例分析： 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗？你想把你心中的想法告诉大家吗？你愿意和果尔一起打造真正的纯SEO交流平台吗？……欢迎发送您的建议或意见，以及您的原创文章（请. ...

页面搜集原理、技术和系统-搜集过程

Posted:2013-11-27 09:12:33 - comments | 作者： @果尔 @ SEO培训学院修订1.4 ID:7022

了解了一些页面搜集的基础知识后，我们来看看搜索引擎搜集一个页面的整个过程是怎么进行的。

下图是搜索引擎搜集网页的过程流程图：

搜索引擎搜集网页的过程流程图

搜索引擎搜集网页过程

调度器是整个搜集过程的核心，它内部保存有一个已访问URL库和未访问URL库，统称URL库。一开始调度器会从未访问URL库中取出一条URL，分配给蜘蛛，让蜘蛛去抓取未抓取过的URL。
当一个蜘蛛得到URL的时候，它会向这个URL发出请求抓取，流程是：对该URL对应的域名进行DNS解析 -> 得到IP进行Socket连接 -> 连接成功发出http请求 -> 接收网页信息。
蜘蛛得到网页信息后，会返回源代码给调度器，调度器会将源代码保存到网页数据库中。
调度器还会对抓取到的网页进行链接提取，将未抓取过的URL存放到未访问URL库中，并将刚刚抓取完的URL更新到已抓取URL库中。

小结

上述讲的都是搜索引擎网页抓取的整个过程，过程虽简单，但是一些细节上的问题还是存在的，比如如何避免网页重复搜集，如何首先搜集重要的网页等等

果尔SEO，中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有，转载请注明出处。

更多

上一篇：页面搜集原理、技术和系统-基础知识