- 1、本文档共87页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本聚类分析效评价及文本表示研究
史奉聚类分f『『设聚订价腱史奉表小纠f究: 摘要
摘要
随着计算机技术的不断发展与应用,数字化的文本数掘数量不断增长,互联网的发
展更加剧了数字文本的膨胀。在这种背景下,利用聚类分析技术对文本数掘进行简化表
示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的
个性化推送都是一系列极具发展自≯景的应用。在与文本聚类分析相关的研究中,町用的
1
‘羚k 算法种类众多且难以选择与比较,冈此对文本的聚类结果进行有效评价非常关键。目日i,
l
’ 评价方法比较混乱,缺乏得到普遍认同的评价方法及与之相关的深入研究。这导致在实
际应用中选择算法、选择参数时缺乏一个科学的依据。在研究与实际应用中,评价文本
聚类分析效果有哪些指标,各有什么特性,不同的文本聚类分析算法效果哪个好哪个不
好,哪个更好,怎样彳。能更好,这些都是需要研究人员进行回答的问题。
这些问题归结到底都是一个文本聚类效果的评价问题。本文围绕文本聚类效果评价、
提高文本聚类分析效果这个目的,土要完成了文本聚类分析评价以及文本表示模型研究
两个方面的工作,论文的具体工作内容包括: ,
(I)影响文本聚类效果的因素分析。详细分析了可能影响文本聚类分析效果的三个
因素:文本表示模型、距离度量方法和聚类分析算法: .
(2)详细介绍了两类评价标准F对应的具体评价指标,清晰界定了基于人-rN定的
指标和基于目标函数的指标两大类别,分清各自的应用场景,着重介绍基于人
工判定豹系列指标以及其特性,推荐使用熵和基于类的F值两个指标;
(3)实现了包括文本解析、文本聚类分析、文本聚类效果评价分析三个模块的实用
敬件包,软件包实现了多种文本解析方法、聚类分析算法及评价指标,三个模
块可各自独立使用,可扩展性强;
(4)应用软件包进行实验分析。}要分折ItAC算法中大类现象的出现位置、原因和
启示,对HAC与K-Means算法进行效能分析、对多种影响因素的影响力进行比
较分析,对主要聚类算法效粜进行横向比较。毛要结论包括:a)文本HAC算法
的聚类效果是一个先变盘『盯变U、的过程,算法先按照文本语义逐渐凝聚簇直至
临界点,临界点后出现丈炎倾向,质鞋丌始变坏。文本表示与文本语义之间的
不完全对应造成了这种现象.解决方案建议在临界点之d口停止簇合并避免质蹙
可以适当提高最终聚类效粜的质醚;c)VSM模型中的Itc特征权重度量方法相对
值设置,NN算法可以产,I南质畦的小簇,从褴体效果上而言K.Means堆本优
于HAC、K.Means
Bisecting年¨NN聚类锋法:
(5)对文本表示进行探索性的研究。文本聚类归根结底是语义相同或者相近的同质
丈奉聚类分析放氍计价^乏文奉襄小研究: 摘盘
文本聚成一个团。文本表订÷足决定文本能否按照语义正确聚到一起最苹本的决
定因素。‘本文针对VSM文小农4:模掣的特性弓缺陷进行分析,引入序关系提出
了文本的图表示模型并予以文愉榆,尝试打破特纽:项的独立性假设:j找语义单
元。
本文的主要贡献有三点:(1)确一屯了文本聚类评价指标体系,结合聚类评价指标体系
对影响文本聚类效果的因素进行深入研究,实现了一个有益的可扩展软件包:(2)应用聚
类效果评价技术分析了文本聚类分折中的大类现象。完成系列比较实验,得到有益的结
论与算法改进意见;(3)在文本表示方丽做出了日U
文档评论(0)