- 1、本文档共70页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯分类PPT
数据挖掘分类之;目录;1.1分类的基本概念;1.1分类的基本概念;;;;;;;动物种类;;步骤三:建立分类模型或分类器(分类)。
分类器通常可以看作一个函数,它把特征映射到类的空间上
;;1.2 贝叶斯分类概述;; 贝叶斯公式提供了从先验概率P(A)、P(B)和P(B|A)计算后验概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)随着P(A)和P(B|A)的增长而增长,随着P(B)的增长而减少,即如果B独立于A时被观察到的可能性越大,那么B对A的支持度越小。 ;;; ; 第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。; 朴素贝叶斯分类实例
检测SNS社区中不真实账号;首先设C=0表示真实账号,C=1表示不真实账号。;??2、获取训练样本
????? 这里使用运维人员曾经人工检测过的1万个账号作为训练样本。
?3、计算训练样本中每个类别的频率
????? 用训练样本中真实账号和不真实账号数量分别除以一万,得到:
??????
??????
;?5、使用分类器进行鉴别
????? 下面我们使用上面训练得到的分类器鉴别一个账号,属性如下 a1:日志数量与注册天数的比率为0.1
a2 :好友数与注册天数的比率为 0.2
a3:不使用真实头像 (a = 0)
; 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以 及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。于是诞生了一种更高级、应用范围更广的——贝叶斯网络。;2.1贝叶斯网络概述;? 在上一篇文章中我们讨论了朴素贝叶斯分类。 这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级、应用范围更广的一种算法——贝叶斯网络(又称贝叶斯信念网络或信念网络)。; 上一篇文章我们使用朴素贝叶斯分类实现了SNS社区中不真实账号的检测。在那个解决方案中,我做了如下假设:
????? i、真实账号比非真实账号平均具有更大的日志密度、各大的好友密度以及更多的使用真实头像。
????? ii、日志密度、好友密度和是否使用真实头像在账号真实性给定的条件下是独立的。
????? 但是,上述第二条假设很可能并不成立。一般来说,好友密度除了与账号是否真实有关,还与是否有真实头像有关,因为真实的头像会吸引更多人加其为好友。因此,我们为了获取更准确的分类,可以将假设修改如下:
????? i、真实账号比非真实账号平均具有更大的日志密度、各大的好友密度以及更多的使用真实头像。
????? ii、日志密度与好友密度、日志密度与是否使用真实头像在账号真实性给定的条件下是独立的。
????? iii、使用真实头像的用户比使用非真实头像的用户平均有更大的好友密度。;?? 下图表示特征属性之间的关联:;?例如,通过对训练数据集的统计,得到下表(R表示账号真实性,H表示头像真实性):;有了这些数据,不但能顺向推断,还能通过贝叶斯定理进行逆向推断。例如,现随机抽取一个账户,已知其头像为假,求其账号也为假的概率:;贝叶斯网络的简介;贝叶斯网络的定义; ;贝叶斯网络示例(2);贝叶斯网络又名:信念网(Belief Network)、概率网络(Probability Network)、因果网络(Causal Network)、图模型(Graphical Model)或概率图模型(PGM)、决策网络(Decision Network)、影响图(Influence Diagram)、知识图(Knowledge Map)
贝叶斯网络作为不确定性知识表示的理想模型,具有以下主要特点:
1.具有坚实的数学基础:贝叶斯理论是贝叶斯概率和经典的统计学理论相结合的结果,它给出了信任函数在数学上的计算方法,刻画了信任度与样本数据的一致性以及信任度随数据而变化
文档评论(0)