What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

搜集信息的预处理-中文分词技术

Posted:2013-11-27 09:17:19 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7031

author

在上一节的《3.1.1、搜集信息的预处理–索引网页库》中我们介绍了索引网页库的组成部分,当然那是为了搜索引擎通过URL快速定位网页所设计的,而在实际应用中,搜索引擎还需要实现关键词到网页的索引,那么搜索引擎就得先对每个网页的关键词都进行分析,本文就讲讲搜索引擎的中文分词技术。

为什么要进行中文分词?

计算机无法像人们可以理解网页内容主题,一个解决的办法就是将网页拆分成一个个词语,然后提取出有意义的词语,用于表示网页的主题。

中文分词案例

不同的搜索引擎有各自不同的中文分词方法,但是目的都是将中文语句切分成一个个关键词,以下为ICTCLAS汉语分词系统的中文分词演示效果:

ICTCLAS汉语分词系统

小结

只有将每个网页都进行中文分词,搜索引擎才能对每个网页建立关键词到网页的索引,这个工作可以为之后的查询服务高效检索打下基础,也是搜索引擎原理的一个技术难点,下一节黄聪和大家一起学习《3.1.3、搜集信息的预处理–分析页面和建立倒排文件》。


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:搜集信息的预处理-索引网页库