网站大量收购独家精品文档,联系QQ:2885784924

文本聚类分析效评价及文本表示研究.pdf

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本聚类分析效评价及文本表示研究

史奉聚类分f『『设聚订价腱史奉表小纠f究: 摘要 摘要 随着计算机技术的不断发展与应用,数字化的文本数掘数量不断增长,互联网的发 展更加剧了数字文本的膨胀。在这种背景下,利用聚类分析技术对文本数掘进行简化表 示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的 个性化推送都是一系列极具发展自≯景的应用。在与文本聚类分析相关的研究中,町用的 1 ‘羚k 算法种类众多且难以选择与比较,冈此对文本的聚类结果进行有效评价非常关键。目日i, l ’ 评价方法比较混乱,缺乏得到普遍认同的评价方法及与之相关的深入研究。这导致在实 际应用中选择算法、选择参数时缺乏一个科学的依据。在研究与实际应用中,评价文本 聚类分析效果有哪些指标,各有什么特性,不同的文本聚类分析算法效果哪个好哪个不 好,哪个更好,怎样彳。能更好,这些都是需要研究人员进行回答的问题。 这些问题归结到底都是一个文本聚类效果的评价问题。本文围绕文本聚类效果评价、 提高文本聚类分析效果这个目的,土要完成了文本聚类分析评价以及文本表示模型研究 两个方面的工作,论文的具体工作内容包括: , (I)影响文本聚类效果的因素分析。详细分析了可能影响文本聚类分析效果的三个 因素:文本表示模型、距离度量方法和聚类分析算法: . (2)详细介绍了两类评价标准F对应的具体评价指标,清晰界定了基于人-rN定的 指标和基于目标函数的指标两大类别,分清各自的应用场景,着重介绍基于人 工判定豹系列指标以及其特性,推荐使用熵和基于类的F值两个指标; (3)实现了包括文本解析、文本聚类分析、文本聚类效果评价分析三个模块的实用 敬件包,软件包实现了多种文本解析方法、聚类分析算法及评价指标,三个模 块可各自独立使用,可扩展性强; (4)应用软件包进行实验分析。}要分折ItAC算法中大类现象的出现位置、原因和 启示,对HAC与K-Means算法进行效能分析、对多种影响因素的影响力进行比 较分析,对主要聚类算法效粜进行横向比较。毛要结论包括:a)文本HAC算法 的聚类效果是一个先变盘『盯变U、的过程,算法先按照文本语义逐渐凝聚簇直至 临界点,临界点后出现丈炎倾向,质鞋丌始变坏。文本表示与文本语义之间的 不完全对应造成了这种现象.解决方案建议在临界点之d口停止簇合并避免质蹙 可以适当提高最终聚类效粜的质醚;c)VSM模型中的Itc特征权重度量方法相对 值设置,NN算法可以产,I南质畦的小簇,从褴体效果上而言K.Means堆本优 于HAC、K.Means Bisecting年¨NN聚类锋法: (5)对文本表示进行探索性的研究。文本聚类归根结底是语义相同或者相近的同质 丈奉聚类分析放氍计价^乏文奉襄小研究: 摘盘 文本聚成一个团。文本表订÷足决定文本能否按照语义正确聚到一起最苹本的决 定因素。‘本文针对VSM文小农4:模掣的特性弓缺陷进行分析,引入序关系提出 了文本的图表示模型并予以文愉榆,尝试打破特纽:项的独立性假设:j找语义单 元。 本文的主要贡献有三点:(1)确一屯了文本聚类评价指标体系,结合聚类评价指标体系 对影响文本聚类效果的因素进行深入研究,实现了一个有益的可扩展软件包:(2)应用聚 类效果评价技术分析了文本聚类分折中的大类现象。完成系列比较实验,得到有益的结 论与算法改进意见;(3)在文本表示方丽做出了日U

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档