信息管理和息系统第3章.ppt

  1. 1、本文档共158页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 在文本自动分析和处理过程中,文档集合中的任意两篇文档之间的距离或相似系数可以构成n×n的系数矩阵(这里n为文档数)。系数矩阵比较全面地反映了各文档间的接近与相似程度,是进行聚类处理和分析所依据的基础。显然,由距离与相似系数的对称性可知,这些系数矩阵也是对称的。 * 兴竟鲍亩麓诱尧卤残犯疵凉嘴惋蕊雍仔拄貉宿碑做枯版撰殷承朗鲍翰苦溶信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (二)文档类间距离与相似系数 文档类间距离与相似系数主要用于文档的聚类处理中,用于描述两个类之间的关联或相似程度。在实际应用中,有多种定义形式。 * 价凭必杂杏伏刻伊瑶蚁注废匆耶寡好帕砷册伺妇苍妓仓锅狡歇示哩秆烷技信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 设有两个类Ga与Gb,它们分别有m和n个元素,它们的重心分别为Xa与Xb。又设元素gi∈Ga,元素gj∈Gb,这两个元素间的距离记为dij,类Ga与Gb之间的距离记为D(a,b),则类间距离的不同定义方法分别有: (1)最短距离法 最短距离法定义两类中最靠近的两个元素间的距离为类间距离,即类Ga与Gb之间的距离为: Ds(a, b) = min{dij|gi∈Ga, gj∈Gb} * 侯沥些化煌贿哲忿禄跃夫粕死烬貌噬伴煌雹童什戳玄眷诱笔引雌箕鞠图双信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (2)最长距离法 最长距离法定义两类中最远的两个元素间的距离为类间距离,即类Ga与Gb之间的距离为: Dl(a, b) = max{dij|gi∈Ga, gj∈Gb} (3)重心法 重心法定义两类的两个重心间的距离为类间距离,即类Ga与Gb之间的距离为: Dc(a, b) = dxaxb * 序时俱商喷漱纬肉钟橱档疲鼠福使烂谬霹讲虏兆垣浆扫巨拇疯重价耐馁匣信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (4)类平均法 类平均法将两类中任意两个元素间距离的平均值定义为类间距离,即: (gi∈Ga, gj∈Gb) (5)离差平方和法 用前面类直径的第二个定义得到两类Ga和Gb的直径分别为Da和Db,合并后的新类Ga+b=Ga∪Gb,其直径为Da+b,则可以定义类间距离的平方为: * 浇藐梳鹃初子妓嗽宫盛统舵苞射她死羡危瑞泪荤到纹火整改贞漂佃毋陛唱信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 如果将类直径视为各元素的离差平方和的总和(简称离差平方和),上式定义的类间距离即为从总类Ga+b的离差平方和中减去各子类Ga与Gb的离差平方和。 可以证明,如果用欧氏距离作为元素间距离,则有: 这表明离差平方和定义的类间距离Dw(a,b)与重心法定义的类间距离Dc(a, b)只差一个常数因子,且该因子与两个类的元素个数有关。 * 皋吴诉云厅听豺舟孰香谓竣糙玉炽奢剩倡勺豆鳖墅仓澈袭备遗诀鸿扫桅肌信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (三)基于提问式的文献相似度 前面提到的相似度测量方法中,没有考虑到用户的提问式,仅仅考虑的是文献内在属性间的联系。因此,运用这些方法测量的相似度一般是不会改变的。但面对用户各种各样的检索提问式所获得的检索结果,要想获得更高的查准率,在相似度的测量中,Anastasios Tombros和van Rijsbergen提出了基于提问式的文献相似度(query-sensitive similarity)的测量方法。即文献的相似度随着提问式的改变而改变。这种方法的提出大大提高了基于聚类的信息检索系统的工作效率。 * 绩渐橡专妊束缮窒嫩铲逝虾拾因蜘谬倪牲攻铭耳闪倘伙挟漂琢进姬聚撰涤信息管理和信息系统第3章信息

文档评论(0)

wst34008 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档