What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

中文网页自动分类技术

Posted:2013-11-27 09:24:35 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7048

author

到了本章,说明搜索引擎原理教程1.0已经接近尾声了,在本节黄聪将和大家学习中文网页自动分类技术。

 

中文分类技术

中文分类技术的出现主要是为了实现网页类别的分类。进行网页的分类,搜索引擎可以提供更好的目录服务。

除此之外,搜索引擎对网页进行了分类,那么当用户搜索某类别的信息时,搜索引擎也只用检索该分类下的文档即可,因为事先经过了分类,因此搜索引擎要分析的网页将大大减少,可以提高检索的速度。

中文分类技术

如上图所示,中文网页自动分类技术主要分2个过程。

1、训练过程

一开始搜索引擎会拿一些特定的网页作为训练集实例,经过预处理之后,通过向量化之后存为特征项向量数据库。同时拿出一部分训练集作为校验集,通过训练和测试,主要用于确定每个类别的截尾阈值。

2、分类过程

搜索引擎得到一个新的网页,搜索引擎会先对该网页进行预处理,并且向量化表示,然后通过分类算法,与特征项向量数据库的内容进行比较,求出候选类列表;之后再通过阈值算法求出每个类别的阈值,筛选掉不合适的类别后,得到结果类列表。

小结

随着本章的结束,搜索引擎原理的课程也接近尾声了,黄聪花了7章的课程和大家一起学习搜索引擎的各个组成部分的知识,虽然不是很详细,但是希望能够给搜索引擎爱好者一些帮助,只要有人因为该教程对搜索引擎有了更深的了解,那么黄聪就没有白花这个力气了。


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:相关排序-最终权值的计算