- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于《现代汉语语义分类词典》的文本聚类方法
第29卷摇 第11期 情摇 报摇 杂摇 志 Vol.29摇 No.11
2010年11月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Nov.摇 2010
基于《现代汉语语义分类词典》的文本聚类方法*
Text Clustering Method Based on Thesaurus of Modern Chinese
刘 金 岭
(淮阴工学院计算机工程学院摇 淮阴摇 223003)
摘摇 要摇 给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用《现代汉语语义分
类词典》的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概
念进行样本划分,从而完成整个文本的聚类过程。 试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效
率。
关键词摇 中文文本摇 概念元组摇 聚类
中图分类号摇 TP391摇 摇 摇 摇 摇 摇 文献识别码摇 A摇 摇 摇 摇 摇 摇 摇 文章编号摇 1001-1965(2010)11-0170-04
[6]
摇 摇 目前的文本聚类方法大致可以分为层次凝聚法、 析》 一书中提出的概念加以改进,定义了中文文本
平面划分法、基于密度的方法等类型。 层次聚类比平 聚类分析的概念,在此基础上,给出文本聚类的整个过
[1] 程,并描述相应的算法,该算法是从描述文本对象的内
面划分法容易获得较高的精度 ;但是在每次合并时,
需要比较所有簇之间的相似度并选择出最佳的两个 容本身出发,首先从这些文本中提取基本概念词,然后
簇,效率较低,不适用于大量文档的集合。 平面划分法 再对这些词进行概化,以形成更高层的概念,最后把文
与层次凝聚法的区别在于,它将文档集合水平地分割 本对象分配到不同的高层概念中,从而产生最终的聚
为若干个簇,而不是生成层次化的嵌套簇。 平面划分 类结果。
方法可以取得较好的效率,但在事先不知道类别的情 1摇 基于概念的向量模型
况下对文本进行自动的匹配和归类,具有一定的盲目
摇 1.1摇 现代汉语语义分类词典摇 《现代汉语语义分
性。 因此,需要在初始时对一些对聚类效果有决定性
[2] 类词典》继承了《同义词词林》概念分类的传统,以反
作用的参数进行设置。 基于密度的DBSCAN算法
映一个社会的生活全貌及认识观念的概念关系为目
因其抗噪声能力强、能发现任意形状的聚簇等优点,但
的,收录了8万余条现代汉语通用性较高的语文词语,
是算法依赖于两个参数:邻域半径 着和邻域内的最少
建构出了一个五级语义分类体系,里面包括9 个一级
对象阈值MinPts。 算法对这两个参数非常敏感,细微
类,62个二级类,518个三级类,2076个四级类,12613
的差别即可能导致较大的聚类差异。 同时,分析 DB鄄
个五级类。 所建构的义类关系,注重上位语义层对下
SCAN算法可以发现,全局恒定的邻域半径 着 和最少
位语义层有较强控制力,下位语义层对上位语义层的
对象数MinPts可能导致高密度的聚类结果被完全包
文档评论(0)