What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

搜集信息的预处理-网页净化和消重

Posted:2013-11-27 09:18:08 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7033

author

在上一节的《3.1.3、搜集信息的预处理–分析页面和建立倒排文件》中我们说过,搜索引擎在预处理的第一步就是要先进行网页的分析,本节将对这部分的内容进行展开。

网页净化与消重

网页净化与消重

  • 1、网页净化:识别和消除网页内的噪声内容(如广告、版权信息等),并提取出网页的主题和主题相关的内容。
  • 2、消重:去除所搜集网页集合中主题内容重复的内容。

建立索引是在消重后的网页集上进行的,这样才可以保证用户在查询时不会出现大量内容重复的网页。


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:搜集信息的预处理-分析页面和建立倒排文件