- 博客(0)
- 资源 (5)
- 收藏
- 关注
文本聚类结果描述研究综述
文本分类可以把未标注类别的文档分到预先定义好的类别中
去。图1.1 是文本分类的示意图。一般来说,文本分类系统是采用有指导学
习(Supervised Learning)方法来构造一个分类器(Classifier)。首先,提供一些标注
Fig. 1.1 The Frame of Text Categorization
好类别的训练样本文档集合;然后,基于这些训练样本,训练分类模型的参
数;这样就构造一个文本分类系统,它可以对新文档进行分类。
2010-05-20
基于K-means的算法研究
本数据高维性和稀疏性的特点使得文本对象间的相似度不易度量,根据文本
间的相似度为k-means算法选择的始聚类中心时可能不能很好的代表整个文本集。针对
该缺点,对k.means算法中的初始化问题,提出一个改进的初始聚类中心选择方法。实
验表明改进的方法选择到初始聚类中心比较分散且代表性好。
2010-05-17
改进性文本聚类资源研究
经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档
相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的
内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查
询项进行精确匹配,因此只能反映用户所要检索内容的某一方面,无法保证语义概念上的匹配。而且算法
效果与样本输入的次序和词频相关,只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才
能体现出来,因此该算法只适合于词频较大的大文档_2]。对于小文本文档,K均值聚类算法很难反映出其
语义特征,检索效果较差。为此,笔者提出了一种改进型的K均值聚类算法,解决中小文档聚类问题。
2010-05-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人