基于开放本体的数据关联分析研究.docx

基于开放本体的数据关联分析研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于开放本体的数据关联分析研究

?

?

朱勇丁刚

摘要:随着互联网上数据量的快速增长,数据关联分析显得越来越重要。为适应复杂异构数据的分析,本文基于开放本体识别互联网上文档中的各类实体,并加以标注使之具有语义,得到与主题相关的命名实体识别。随后挖掘命名實体的关联关系,丰富其中的语义。通过研究,命名实体减少了数据挖掘输入数据量的数目,结合Apriori经典算法,可以挖掘出更加感兴趣、有意义的关联规则,使人们在海量数据中挖的阅读更加高效快速、更容易把握主题,并强化了有哪些信誉好的足球投注网站功能。

关键词:开放本体;数据关联分析;Apriori经典算法;命名实体

:TP311:A:1007-9416(2020)09-0034-03

1介绍

在信息科学领域内,本体是指共享结构,明确和具体描述的形式概念[1]。本体含结构化属性,是一种异常类型的术语集,事实上是一种形式化的表达,基于特殊范畴之间的某种说明及其互相间关系。本体一般可以用来推断字段属性,也可被用来定义字段。目前,可供使用的开放本体主要有DBpedia、YAGO等[2]。

本文首先描绘了命名实体识别的体系框架,阐述命名实体识别的过程。随后采用Apriori经典算法将已经标注好的实体进行数据挖掘,挖掘其频繁项集,并根据最小支持度和最小置信度挖掘其关联规则。

2命名实体识别

随着互联网上数据量的快速增长,人们期望计算机可以自动处理网络中的信息。命名实体识别(NamedEntityRecognition)是底层信息处理技术的一个重要的手段[3]。命名实体指在文本里具有重要语义的一类词语,是自然语言中语句的重要组成部分。片面角度看,能够把命名实体划成地方、人物、组织机构等。全局角度看,命名实体能够涵盖数学定义式、时间定义式等。

一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。通常包括两部分:(1)发现命名实体,即判断一个文本串是否代表一个实体;(2)标注命名实体,即将发现的命名实体标注为某一种具体的类型(人名、地名、机构名或其他)。其中重点是确定实体的类别以及三元组的关系抽取[4]。

命名实体是网页文本中基础的信息单元,也是文本中的缩写、固有名词及其它唯一标识。往往划为三类,即实体名称、时间表达式、数字表达式。无论是时间表达式还是数字表达式,它们的表达形式较为一致,持有恒定的规范,所以较为容易识别并标注出实体。而名称类实体具有多样性和歧义性,识别较为困难,难以消除歧义,为标注实体带来很大的阻力。

命名实体识别的体系框架包括五部分:(1)实体指称提取;(2)实体指称扩充;(3)候选实体生成;(4)候选实体排序;(5)无指代实体聚类。其中(1)、(2)、(3)部分是发现命名实体,(4)、(5)部分是命名实体消歧。

在(1)中,对背景文本实行语法分析,得到所有待消歧实体的指称,并将其存放在指称列表中。把语句作为节点,本文利用StanfordParser工具包对语句的句法进行解析。依照句法分析的成果,把文本中句子的主语与宾语抽取出来,作为待加入到指称列表中的词语。

在(2)中,根据StanfordParser语法分析器自动分析句子的主语与宾语成分时,可能遗漏部分实体指称,这时要对指称列表中的待消歧命名实体的指称实行扩充。扩充后,用全称替换列表中的缩写指称,缩小消歧的范围。根据首字母缩略词和简称词的结构不同,扩充方法包括首字母缩略词扩充和简称词扩充等方法。

在(3)中,利用AC字符串匹配算法产生候选实体,生成指称列表中待消歧命名实体指称的候选实体。若没有产生候选实体,其待消歧命名实体指称会被标注成无指代实体。

在(4)中,对所有候选实体集合进行排序。首先将每一个待消歧命名实体指称看做一个节点,提取候选实体特征,并定义成向量形式。在待消歧命名实体指称M产生的候选实体集合SET(EM)中,采用Ranking-SVM排序算法生成最优实体Etop构成〈M,Etop〉。这里提取的特征包括表面特征、出处特征、句法特征、语义特征、文本特征、位置特征、主题特征和受欢迎度特征等8大类。产生的最优实体进行二分类辨别以判断这个最优实体是否是正确的。正确则自动反馈此最优实体在知识基中相应的ID号;若不正确,则将其标注成无指代实体。

在(5)中,将无指代实体所构成的集合实行聚类。本文采用余弦相似性算法计算文本之间的相似程度,通过向量夹角余弦值的计算来度量两个向量相似性。根据余弦曲线图像特征,两向量间夹角余弦值最大为1,最小为-1。计算公式如式(1)所示。

3数据关联分析

要对互联网上的信息进行数据关联分析,首先爬取网页上的文本,将爬取的文本当作实体标注的输入进行命名实体识别,再将标注好的实体作为关联规则挖掘的输入,

文档评论(0)

132****1010 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档