数据挖掘的统计限制概要.ppt

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的统计限制概要

第二节 数据挖掘的统计限制 一、整体情报预警 二、邦弗朗尼原理 三、邦弗朗尼原理的例子 1、事件: 2002年,美国布什政府提出了针对所有可获得的数据进行挖掘的计划,目的用于追踪恐怖活动。这些数据包括信用卡收据、酒店记录、旅行数据以及许多其他类型的情报。 一、整体情报预警 Total information awareness(TIA) 2、缺陷: 寻找了许多关联模糊的数据,显然会得出虚假的结果因此侵犯无辜者的隐私。 ①通过浏览大量的数据,并想从中发现疑似的恐怖行为,是否会找出很多无辜行为。 ②是否会找出虽然非法但不是恐怖行为的行为。 ③这些最终结果的发现是否会导致警察登门造访甚至更糟糕的情形。 二、邦弗朗尼原理 1、非正式阐述: 可帮助我们避免将随机出现看成真正出现。 假定人们有一定量的数据并期望从中找到某个特定类型的事件。即使数据完全随机,也可以期望该类型事件发生。任何随机数据往往都会有一些不同寻常的特征,这些特征看上去虽然很重要,但实际上并不重要,除此之外,别无他由,这个意义上而言,这些事件的出现纯属“臆造”。 在数据随机性假设的基础上,可以计算 所寻找事件出现次数的期望值。如果该结果 显著高于你所希望找到的真正实例的数目, 那么可以预期,寻找到的几乎任何事物都是 臆造的,也就是说,他们是在统计上出现的 假象,而不是你所寻找事件的凭证。 二、邦弗朗尼原理 2、原理: 在考察数据时,如果将某些对象视为数据的有趣特征,而这些对象中的许多都可能会在随机数据中出现,那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说,上述观察结果限制了从这些数据特征中进行挖掘的能力。 3、作用:对数据挖掘的过度使用进行警告。 三、邦弗朗尼原理的例子 1、数据挖掘的目标: 确信在某个地方有一群恶人,目的是找出这群恶人。我们有理由相信这些恶人会定期在某个宾馆聚会商讨作恶计划。 2、数据的有趣特征: 恶人在两个不同日子入住同一宾馆。 3、假设: (1)恶人数目可能有10亿 (2)每个人每100天当中会有一天去宾馆 (3)一个宾馆最多容纳100个人。因此10 万个宾馆足够容纳10亿人中的1%也 就是 1000万人在某个给定的日子入住宾馆。 (4)我们将对1000天的宾馆入住记录进行 核查。 4、是否能推断某两人可能是恶人: (1)假设没有恶人,则每人去宾馆的概率为0.01,且是随机地从10万个宾馆中选择一个。 (2)给定某天,任意两人决定去宾馆的概率:0.0001 (3)给定某天,两人同时入住同一宾馆的概率: 0.0001/105=10-9 (4)任意给定不同两天,两人入住同一宾馆的概率:10-9的平方,即10-18 上述推理中,只需要两人两次中每次住的宾馆相同即可,不需要两次都是同一宾馆。 5、事件出现多少次表明作恶事件发生: 事件:两个人在两天中的每一天入住相同 宾馆。 (1)10亿人中的人员组对个数: (2)1000天内任意两天的组合个数: (3)疑似作恶事件的期望数目: 6、结果: 大概25万对人员疑似恶人,即使他们 根本不是。 假定实际只有10对人员是恶人,警察 局则需要调查25万对人员寻找他们。除了 会侵犯近50万无辜人们的生活,所需工作 量非常大,以至于上述做法几乎不可行。 * *

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档