网站大量收购闲置独家精品文档,联系QQ:2885784924

血缘关系数据的分析论文.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

血缘关系数据的分析论文

血缘关系数据的分析论文

血缘关系数据的分析论文

1依托血缘分析的数据熵减

对于使用数据的动机,除了对数据对象主体的认知识别之外,还

有要对数据呈现的显性和隐性规律进行发现,从自然语言上看,脑力

活动对数据处理的第一步就是降低数据间的差异化,进行熵减的分析

行为。哲学家维特根斯坦认为,对于哲学本质的界定都属无法言说之

物,应用到数据分析领域,数据存在一种由内而外的泛化惯性,不断

对原有数据形成新的描述,造成数据阵营的扩张,而其信息主体则是

稳定的,对描述性数据和活动数据存在吸附力,属于无法言说的本质

最边缘。立足于这种思想观点,我们可以认为貌似松散无序的数据间

存在一种牢固的血缘数据关系,因为所有数据都是基于信息主体泛化

出的描述性和活动性数据,而这种熵减的动作其表现形式可以等同于

对数据血缘关系的向上追溯,技术上则表现为一种寻找最大扇出的上

层。这样,熵减的技术实现就是通过建立血缘关系而去寻找最大扇出

的上层,这种分析法易于在数据发现应用中,通过检索建立模糊入口

点去组织发现数据,其与扇出或扇入点的血缘关系越近,入口点对其

的吸附力越强、权重越高。但这样会出现另一个无法回避的问题,即

通过活动在最外界的数据从体量上看相当可观,由外到内追溯扇出上

层的劳动比较沉重,从而会理所当然地采取抽样的方式进行,此项活

动的进行必须假定数据世界观上层的有限集合认定上,坚信必定会将

血缘关系归集到某几个关键数据表达之上,这样才会使本项活动的实

施行为具备基本的意义和价值。从效果上看,对数据进行熵减有利于

我们甄别数据关系隐含的内在规律,也有利于我们建立具有良好适应

性的数据生态模型,为更好地认识和利用数据打下基础。可以合理畅

想一下,当我们就一个焦点议题开展讨论后,熵减让我们迅速聚焦到

议题的内核,甚至直面议题背后隐含的现象实质,不必纠缠于不必要

的信息干扰,对讨论内核进行强化呈现,智力活动所崇尚的方式也可

以在计算活动中得以体现。熵减在某种意义上不是对某一类数据分析

所采取的手段,而是对数据认识的宏观行为,其在计算领域内的呈现

方式,与我们对事物自然认知而采取的抽象和引申别无二致,如此深

入下来,对熵减策略的研究更重要于对熵减活动的归纳,通过对策略

模型的推演,可以有效地发挥机器学习的能力,如果在策略模型的研

究上实施开展,将会极大降低加工难度。

2建立标签关系的反向工程

当我们框定了熵减的方法体系后,在数据间建立血缘关系则显得

尤为重要,由于数据生长动力呈现由内而外的泛化驱动,但是本身这

种泛化在信息化过程中很多是无组织的行为,缺少逻辑上预先定义,

所以数据生成后,大量的数据关系被衰减掉,从正向渠道难以对数据

关系建立血缘,工程极其浩瀚复杂。由于血缘关系无法完全在数据生

长中自然形成,正向人工干预又存在操作难度,所以反其道而行之则

是唯一通道。数据加工的反向性,优势首先体现在由微观到宏观的加

工难度大幅下降,因为其工作处于抽象的最底层,使采用众包模式加

工成为可能。其次,这种加工模式,可以在有效建立一种数据关系的

闭环管理的同时,不会抑制数据生长的空间和速率,不会因加工效率

低而凝固数据资产化的进程。在反向加工的过程中,需要通过标签联

结数据关系,这时候我们要关注标签的质量和复用度,由于标签定义

存在难度,所以要松绑标签定义来促成数据加工的快速实施,解决的

重点则迁移到标签在后期管理中的智能化上。首先,可以通过标签在

关系联结中的重复出现进行跟踪,识别是标签二义性还是加工者的活

动差异。活动差异标签最基本的处理方法是进行聚合,形成知识归纳;

二义标签则需要改进表达。其次,依赖血缘关系建立可视化图谱,从

数据结构工程里可以有效识别关系路径的黏合点,即发现重复路径中

出现的一个以上的标签,消除由知识结构差异造成的人为误会,对标

签进行合并。这样,通过标签的智能化后期管理就可以将加工难度上

移,建立分层加工的工厂模式。这种加工存在基本准则,并要建立基

本的衡量尺度来保证标签有效性,加工工艺可以从标签质量、使用度、

命中率等指标进行测量。其中,质量有赖于标签本身定义成分的内涵,

要确认其被受众广泛理解;使用度是在加工活动中的使用次数,是否

被数据关系广泛应用,使用度较低的标签要确认其存在价值,通过标

签间同时出现概率决定其含义表达是否具备唯一性;命中率则建立在

使用者的自然需要基础上,如果某一标签绝少被使用者利用或调度,

与整体观测结果是否存在数值上的明显差异。整体上看,通过这些基

本准则建立

您可能关注的文档

文档评论(0)

185****4542 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档