基于开放本体的数据关联分析研究.docx

下载文档

0
0
约3.8千字
约 6页
2024-09-12 发布于湖北
举报
版权申诉
保障服务

基于开放本体的数据关联分析研究.docx

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于开放本体的数据关联分析研究

朱勇丁刚

摘要：随着互联网上数据量的快速增长，数据关联分析显得越来越重要。为适应复杂异构数据的分析，本文基于开放本体识别互联网上文档中的各类实体，并加以标注使之具有语义，得到与主题相关的命名实体识别。随后挖掘命名實体的关联关系，丰富其中的语义。通过研究，命名实体减少了数据挖掘输入数据量的数目，结合Apriori经典算法，可以挖掘出更加感兴趣、有意义的关联规则，使人们在海量数据中挖的阅读更加高效快速、更容易把握主题，并强化了有哪些信誉好的足球投注网站功能。

关键词：开放本体;数据关联分析;Apriori经典算法;命名实体

：TP311：A：1007-9416（2020）09-0034-03

1介绍

在信息科学领域内，本体是指共享结构，明确和具体描述的形式概念[1]。本体含结构化属性，是一种异常类型的术语集，事实上是一种形式化的表达，基于特殊范畴之间的某种说明及其互相间关系。本体一般可以用来推断字段属性，也可被用来定义字段。目前，可供使用的开放本体主要有DBpedia、YAGO等[2]。

本文首先描绘了命名实体识别的体系框架，阐述命名实体识别的过程。随后采用Apriori经典算法将已经标注好的实体进行数据挖掘，挖掘其频繁项集，并根据最小支持度和最小置信度挖掘其关联规则。

2命名实体识别

随着互联网上数据量的快速增长，人们期望计算机可以自动处理网络中的信息。命名实体识别（NamedEntityRecognition）是底层信息处理技术的一个重要的手段[3]。命名实体指在文本里具有重要语义的一类词语，是自然语言中语句的重要组成部分。片面角度看，能够把命名实体划成地方、人物、组织机构等。全局角度看，命名实体能够涵盖数学定义式、时间定义式等。

一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）。通常包括两部分：（1）发现命名实体，即判断一个文本串是否代表一个实体;（2）标注命名实体，即将发现的命名实体标注为某一种具体的类型（人名、地名、机构名或其他）。其中重点是确定实体的类别以及三元组的关系抽取[4]。

命名实体是网页文本中基础的信息单元，也是文本中的缩写、固有名词及其它唯一标识。往往划为三类，即实体名称、时间表达式、数字表达式。无论是时间表达式还是数字表达式，它们的表达形式较为一致，持有恒定的规范，所以较为容易识别并标注出实体。而名称类实体具有多样性和歧义性，识别较为困难，难以消除歧义，为标注实体带来很大的阻力。

命名实体识别的体系框架包括五部分：（1）实体指称提取;（2）实体指称扩充;（3）候选实体生成;（4）候选实体排序;（5）无指代实体聚类。其中（1）、（2）、（3）部分是发现命名实体，（4）、（5）部分是命名实体消歧。

在（1）中，对背景文本实行语法分析，得到所有待消歧实体的指称，并将其存放在指称列表中。把语句作为节点，本文利用StanfordParser工具包对语句的句法进行解析。依照句法分析的成果，把文本中句子的主语与宾语抽取出来，作为待加入到指称列表中的词语。

在（2）中，根据StanfordParser语法分析器自动分析句子的主语与宾语成分时，可能遗漏部分实体指称，这时要对指称列表中的待消歧命名实体的指称实行扩充。扩充后，用全称替换列表中的缩写指称，缩小消歧的范围。根据首字母缩略词和简称词的结构不同，扩充方法包括首字母缩略词扩充和简称词扩充等方法。

在（3）中，利用AC字符串匹配算法产生候选实体，生成指称列表中待消歧命名实体指称的候选实体。若没有产生候选实体，其待消歧命名实体指称会被标注成无指代实体。

在（4）中，对所有候选实体集合进行排序。首先将每一个待消歧命名实体指称看做一个节点，提取候选实体特征，并定义成向量形式。在待消歧命名实体指称M产生的候选实体集合SET（EM）中，采用Ranking-SVM排序算法生成最优实体Etop构成〈M，Etop〉。这里提取的特征包括表面特征、出处特征、句法特征、语义特征、文本特征、位置特征、主题特征和受欢迎度特征等8大类。产生的最优实体进行二分类辨别以判断这个最优实体是否是正确的。正确则自动反馈此最优实体在知识基中相应的ID号;若不正确，则将其标注成无指代实体。

在（5）中，将无指代实体所构成的集合实行聚类。本文采用余弦相似性算法计算文本之间的相似程度，通过向量夹角余弦值的计算来度量两个向量相似性。根据余弦曲线图像特征，两向量间夹角余弦值最大为1，最小为-1。计算公式如式（1）所示。

3数据关联分析

要对互联网上的信息进行数据关联分析，首先爬取网页上的文本，将爬取的文本当作实体标注的输入进行命名实体识别，再将标注好的实体作为关联规则挖掘的输入，

您可能关注的文档

文档评论（0）

132****1010 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于开放本体的数据关联分析研究.docx