- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据驱动变化发现
摘要
Text2onto通过增量的本体学习,是用于数据驱动变化发现的一个框架。它用自然语言处理和文本挖掘技术从文本中提取本体,并随着文档添加或删除为本体的修改提供支持。各种变化的明确的模型和一个说明性组件保证了最大的透明度以及本体学习过程的可追溯性。
介绍
动机
本体作为对目标领域语义层次的知识共享,逐渐成为语义驱动建模
第三章 数据驱动变化发现
变化捕获:发现来自明确的或隐含的需求中的本体的变化。明确需求的产生通过想要使本体适应新的需求的本体工程师,或通过终端用户给本体实例提供明确的反馈。这种从需求中捕获变化的方法是自顶向下的。从隐含的需求中捕获变化被称作是自底向上的变化,反映在系统的行为之中,可以用变化发现的方法诱导。
变化发现:目的是通过来自现在的数据,诱导本体变化,产生隐含的需求。3种
数据驱动变化通过修改底层数据产生,例如文本文档或数据库,用本体表现知识模型。因此,数据驱动变化发现通过修改被应用的底层数据集为本体自动或半自动的修改提供方法。
好处:1.精心制作的变化管理系统能够使用户明确追踪本体的变化;
2.当文档改变时,不需要处理全部文档集,从而增加了效率。
3.1 需求
支持数据驱动的变更发现的应用必须满足独立于特定的应用场景的一些需求。
最重要的是追踪数据的所有变化。每个变化都必须以顾及到它的各种信息的方式来表示,如它的类型、创建的来源、它的目标对象。为了使整个系统尽可能的透明,不仅是数据集的变化,而且本体的变化都应该被记录。如果本体的变化由底层数据变化引起,则本体的变化应和相应修改的数据的信息关联到一起。此外,系统应考虑到定义不同种类的变化策略,指定数据变化对本体的影响程度。
允许考虑到用户在不同数据源的置信度,或者文档片刻就会过时这一事实。例如,用户想再重新添加或修改数据时本体就更新,另一方面,他又想在部分数据集被删除时本体仍然保持不变。
明显地自动、半自动的数据驱动变化发现需要一个正式的、明确的两种知识来表现:第一,关于被确定数据变化所影响的概念、实例、关系方面的知识。
第二,用合适的方式对这些变化作出反应的知识,如,如何升级本体来响应这些变化。由于手工构建本体时大部分知识不可利用,我们推断数据驱动变化发现方法的实现应嵌入到一个本体提取系统中。这个系统用本体学习算法来表现一个本体和底层数据集关系的一般知识。因此,通过本体提取系统存储的具体的知识依赖于被实现的算法。概念提取算法需要存储文本引用和关联到每个概念的术语频率,然而一个基于模式的概念分类算法需记住文本中所有模式匹配的发生率。
3.2实现
语料库的变化(添加或删除一个文档),每种算法都更新所有受影响的本体元素的凭证。此外,连接每个本体元素到在语料库中它的词汇化这些参考资料被产生或者删除。这些参考资料不仅促进本体变化的说明的产生,而且能用于创建语义注释,更重要的是,他们能快速判断哪些本体元素被语料库的确定的变化所影响。
一旦所有凭证和参考被更新,算法就创建POM变化的建议,在这些建议被应用于POM之前,用户定义的变化策略可能处理POM。这些变化策略是可用的,例如,为了模拟本体元素的特定类型受到语料库变化的影响,或在本体中文档现代化程度改变的影响。
最后,基于对POM最近的变化,一个具体的本体被一个可利用的本体语言创建或修改,如OWL,RDFS或KAON,能按照用户指定的相容条件来配置。
最大的跟踪能力由每个POM变化的说明的产生这个事实来保证。所有的说明可用于自然语言,也可用在机器可理解的形式,在未来的发展阶段,将考虑一个与智能化的紧密的集成。
第四章 架构
4.1 概述
Text2onto的架构是以概率性的本体模型为中心,其中存储了不同本体学习算法的结果。算法由控制器初始化,目的是(i)触发对语料的预处理(ii)合适的顺序执行本体学习算法(iii)应用算法的变化请求到POM上。通过限制直接操纵POM保证最大的透明度,以及对任意复杂算法的扩展性。
每个算法执行由三个阶段:1.通知阶段,算法学习语料库最近的变化。2.计算阶段,这些变化映射到相应的引用库中,引用库存储了关于本体和数据的关系的各种知识。3.结果产生阶段,引用库内容更新,产生对POM的变化请求。
由Text2onto框架提供的算法可以通过两个方面分类:工作,它们产生不同的模型基元的种类,类型,意思是从文本中提取相关基元的实例所采用不同的方法。每个算法产生一种确定的模型基元,可通过配置应用不同类型的几种算法,并结合它们给POM的变化请求,以此来获得对于每个实例基元更高的概率。有不同的预定义结合策略可提供使用。提取实例关系的算法能应用于一个基于上下文的实例分类,也可应用于手工定义模式查询google的一个算法。两个算法的结果都能达到平衡,或在所有算法中选择
文档评论(0)