What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

搜集信息的预处理-系统结构

Posted:2013-11-27 09:16:11 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7029

author

在第二章我们介绍了搜索引擎原理中的网页搜集模块,本文接着讲搜索引擎下一个模块:预处理模块。在这个模块中,搜索引擎完成的主要任务是索引网页库的建立、中文分词的实现、分析网页和建立倒排文件、网页净化和消重等工作。

为什么要做预处理?

天网格式保存网页信息(网页数据库),容错性好,及时有数据损坏,也是局部的,不会导致扩散或者其他数据无法存取。缺点是不能按照网页URL随机存取其指向的网页。因此,网页预处理的第一步就是为原始网页建立索引

网页预处理系统框图

网页预处理系统框图

  • 1、给原始网页建立索引
  • 2、针对搜索有网页库进行网页切分,将每一个页面转化为一组词的集合。(正向索引)
  • 3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)

小结

网页的预处理是为了给每个网页建立好索引,只有建立了索引,才能确保搜索引擎可以实现秒级内的响应速度,而对于处理好的网页,搜索引擎都会将其存放在索引网页库中


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:可扩展搜索子系统-系统的动态可配置性设计