基于《现代汉语语义分类词典》的文本聚类方法.PDF

基于《现代汉语语义分类词典》的文本聚类方法.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于《现代汉语语义分类词典》的文本聚类方法

第29卷摇 第11期 情摇 报摇 杂摇 志 Vol.29摇 No.11 2010年11月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Nov.摇 2010 基于《现代汉语语义分类词典》的文本聚类方法* Text Clustering Method Based on Thesaurus of Modern Chinese 刘 金 岭 (淮阴工学院计算机工程学院摇 淮阴摇 223003) 摘摇 要摇 给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用《现代汉语语义分 类词典》的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概 念进行样本划分,从而完成整个文本的聚类过程。 试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效 率。 关键词摇 中文文本摇 概念元组摇 聚类 中图分类号摇 TP391摇 摇 摇 摇 摇 摇 文献识别码摇 A摇 摇 摇 摇 摇 摇 摇 文章编号摇 1001-1965(2010)11-0170-04 [6] 摇 摇 目前的文本聚类方法大致可以分为层次凝聚法、 析》 一书中提出的概念加以改进,定义了中文文本 平面划分法、基于密度的方法等类型。 层次聚类比平 聚类分析的概念,在此基础上,给出文本聚类的整个过 [1] 程,并描述相应的算法,该算法是从描述文本对象的内 面划分法容易获得较高的精度 ;但是在每次合并时, 需要比较所有簇之间的相似度并选择出最佳的两个 容本身出发,首先从这些文本中提取基本概念词,然后 簇,效率较低,不适用于大量文档的集合。 平面划分法 再对这些词进行概化,以形成更高层的概念,最后把文 与层次凝聚法的区别在于,它将文档集合水平地分割 本对象分配到不同的高层概念中,从而产生最终的聚 为若干个簇,而不是生成层次化的嵌套簇。 平面划分 类结果。 方法可以取得较好的效率,但在事先不知道类别的情 1摇 基于概念的向量模型 况下对文本进行自动的匹配和归类,具有一定的盲目 摇 1.1摇 现代汉语语义分类词典摇 《现代汉语语义分 性。 因此,需要在初始时对一些对聚类效果有决定性 [2] 类词典》继承了《同义词词林》概念分类的传统,以反 作用的参数进行设置。 基于密度的DBSCAN算法 映一个社会的生活全貌及认识观念的概念关系为目 因其抗噪声能力强、能发现任意形状的聚簇等优点,但 的,收录了8万余条现代汉语通用性较高的语文词语, 是算法依赖于两个参数:邻域半径 着和邻域内的最少 建构出了一个五级语义分类体系,里面包括9 个一级 对象阈值MinPts。 算法对这两个参数非常敏感,细微 类,62个二级类,518个三级类,2076个四级类,12613 的差别即可能导致较大的聚类差异。 同时,分析 DB鄄 个五级类。 所建构的义类关系,注重上位语义层对下 SCAN算法可以发现,全局恒定的邻域半径 着 和最少 位语义层有较强控制力,下位语义层对上位语义层的 对象数MinPts可能导致高密度的聚类结果被完全包

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档