- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1绪论
课题的背景和意义
研究的背景
本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于有哪些信誉好的足球投注网站引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。
相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。
研究的目的和意义
扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义有哪些信誉好的足球投注网站与导航。
现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)[2],均是封闭的系统,在计算未登录词时效果很差。
国内外研究现状
863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。
1)主题图和主题图融合研究现状
主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000[3],这项国际标准定义出了Topic Maps的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图—XML Topic Maps(XTM)[4]成为ISO/IEC 13250的一部分。同年,ISO委员会又提出主题图查询语言 TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。
主题图融合方面,在国外,2004年Lutz Maicher等人提出了SIM算法[5]和2007年由Jung-Mn Kim[6]提出了TM-MAP算法。SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法[7],TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。
2)词汇相似性度量研究现状
国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。
国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的Satanjeev Banerjee[10]等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行
文档评论(0)