网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据中的语义识别.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据中的语义识别 【摘要】数据管理是一个在商业和政府中变得越来越重要的课题。数据质量代表一个很大的挑战,因为数据质量不高所带来的间接损失是非常大的。大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效地深加工,发现隐含在大量数据中的信息并加以利用,进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。高质量的数据是大数据发挥效能的前提和基础,强大、高端的数据分析技术是大数据发挥效能的重要手段。 【关键词】数据量,大数据,数据质量分析,数据词典,正则表达式 对大数据进行有效分析的前提是必须要保证数据的质量,专业的数据分析工具只有在高质量的大数据环境中才能提取出隐含的、准确的、有用的信息,否则,即使数据分析工具再先进,在大数据环境中也却只能提取出毫无意义的“垃圾”信息,那大数据的意义又何在?因此数据质量在大数据环境下尤其重要。为提高数据质量,现在提出为数据添加语义的方法,帮助用户识别大数据的模式。这种方法的独特性在于利用了数据的语义价值,检测完数据后,通过数据语义分析提出一个数据模型,这样就可以对数据更方便的处理。 数据语义介绍 在商业管理中,职业经理人必须有一个统一的视野和有价值较大的信息,从而在恰当的时机做出正确的决策。数据质量管理在企业中已经非常重要了,目的是通过使用指示器这个易于交流,廉价而又计算方便的技术,来提供高精度,全面而又及时的信息。在大数据时代包含多种数据源的信息的质量成为了一个巨大的挑战。 数据质量和语义方面很少加入论文文献。现在的困难是用语义学提高数据质量。在制定纠正数据中的错误的策略时,对数据模式的误解将是我们成功解决问题的重大障碍。频繁的使用元数据不足于让我们正确的理解数据的真正含义。 对于一个给定的数据源S,我们的方法是提出一个语义数据分析来得到对数据定义的更好的了解,并且提高对错误数据的检测和纠正。 但是没有可用的模式来理解数据的意义,更别说纠正错误了。目前很少有数据工具能够将字符串“pekin”(法语‘北京’的意思)识别为“Beijing”,也不能将“Londres”(法语‘伦敦’的意思)识别“London”。为了解这些代表同个类别和子类别信息的字符串,还需要其他的信息。另外还有一些相似的情况,如要将16?C的语义理解为16摄氏度。 令S为一个非结构化数据集,多个种类数据相结合的结果,S还可以看作是字符串的集合,其中的内容用分号隔开并且由列项表示其包含的内容,每一项记录S的一个数据架构。我们定义的S并没有明确的结构,这会导致一个语义数据操作问题。S可能包含不一致的内容,这种情况下需要回答三个疑问:什么是字符串语义?应当使用什么样的语言?什么样的值是能够使用的,什么样的是不能使用的(即值的有效性和无效性)? 图1中给出了一个S的样本 图1:数据源S的样本 可以看到数据源S中有几个列项组成,S被记为(Coli, i = 1;7) 这种形式。 在S中,观察第四列,“Beijing”和“London”在语法和语义上都是有效的,但“pekin”和“Londres”在语法上是有效的,在语义上却是无效的。 COL2列中大多数都是显示的日期信息,因此其中的“13”会被认为无效的(语义上的)。S中不仅有日期信息,还有其他的很多未知信息,这就证明我们需要理解更多的语义并纠正错误的数据。 2.元信息 定义:meta 元素可提供相关页面的元信息(meta-information),比如针对有哪些信誉好的足球投注网站引擎和更新频度的描述和关键词。 meta 标签位于文档的头部,不包含任何内容。meta 标签的属性定义了与文档相关联的名称/值对。 meta是html语言head区的一个辅助性标签。 head meta http-equiv=content-Type content=text/html; charset=gb2312 /head 我们需要深入研究基于语义的新种类的大数据ETL(抽取,转换,加载)这样就能够进行数据分析,数据清理和数据扩充。 数据分析是数据处理过程的第一步(图2)是数据源用于确定数据质量问题的分析,而且是一种量的分析,包括了叙述性的分析,例如:模式,表,域和数据源的定义。 图2:数据质量管理工具 现在的数据分析工具提供了统计数据的分析,并没有解决数据语义方面的分析。由此这里就介绍一下用于扩充分析过程的语义指示器。 对于语义数据处理,我们提出给每个数据源,一个错误报告,更新的日志和使用元信息的新语义结构。错误报告包括数据源中的多种异常:同一列中出现一个以上类别和语言,不一致的数据格式,副本和空值。 更新的日志是一个更新行为的集合,这个集合用于数

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档