数据分析师-数据分析师基础-概率论_概率论在计算机科学中的应用.docx

数据分析师-数据分析师基础-概率论_概率论在计算机科学中的应用.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE1

PAGE1

概率论基础

1随机事件与概率空间

随机事件在概率论中指的是可能发生也可能不发生的事件。例如,抛一枚硬币,正面朝上是一个随机事件。概率空间由三个部分组成:样本空间、事件集合和概率函数。样本空间是所有可能结果的集合,事件集合是样本空间的子集,概率函数为每个事件分配一个介于0和1之间的概率值。

1.1示例

假设我们有一个样本空间S,表示抛一枚硬币两次的所有可能结果:

S={HH,HT,TH,TT}

其中,’HH’表示两次都是正面,’HT’表示第一次是正面,第二次是反面,以此类推。事件集合E可以是所有至少出现一次正面的结果:

E={HH,HT,TH}

概率函数P为每个事件分配一个概率值。对于公平的硬币,每个结果的概率都是1/4:

P={HH:0.25,HT:0.25,TH:0.25,TT:0.25}

2概率的公理化定义

概率的公理化定义由三个公理组成:

对于任何事件A,概率P(A)≥0。

样本空间S的概率P(S)=1。

如果事件A和B是互斥的,那么P(A∪B)=P(A)+P(B)。

2.1示例

假设我们有一个样本空间S,表示一个骰子的所有可能结果:

S={1,2,3,4,5,6}

对于一个公平的骰子,每个结果的概率都是1/6,满足公理1和公理2:

P={1:1/6,2:1/6,3:1/6,4:1/6,5:1/6,6:1/6}

如果事件A是骰子结果小于4,事件B是骰子结果大于3,那么A和B不是互斥的,但是我们可以找到互斥的事件,例如事件C是骰子结果是偶数,事件D是骰子结果是奇数,那么P(C∪D)=P(C)+P(D)=1,满足公理3。

C={2,4,6}

D={1,3,5}

P_C=sum([P[i]foriinC])

P_D=sum([P[i]foriinD])

P_C_D=P_C+P_D

3条件概率与独立性

条件概率是指在已知另一个事件发生的情况下,某个事件发生的概率。如果事件A和事件B是独立的,那么P(A|B)=P(A),即事件B的发生不影响事件A的概率。

3.1示例

假设我们有一个样本空间S,表示一个袋子中有两个红球和两个蓝球的所有可能结果:

S={RR,RB,BR,BB}

其中,’RR’表示两次都抽到红球,’RB’表示第一次抽到红球,第二次抽到蓝球,以此类推。事件A是第一次抽到红球,事件B是第二次抽到红球。那么,条件概率P(A|B)表示在已知第二次抽到红球的情况下,第一次抽到红球的概率。

A={RR,RB}

B={RR,BR}

P_A=sum([1/4foriinA])

P_B=sum([1/4foriinB])

P_A_B=sum([1/3foriinAifiinB])

P_A_given_B=P_A_B/P_B

如果事件A和事件B是独立的,那么P(A|B)=P(A)。但是在这个例子中,P(A|B)≠P(A),所以事件A和事件B不是独立的。

4随机变量与分布

随机变量是样本空间到实数集的映射。随机变量的分布描述了随机变量取各个值的概率。常见的随机变量分布有二项分布、泊松分布和正态分布。

4.1示例

假设我们有一个随机变量X,表示抛一枚硬币两次正面朝上的次数:

X={HH:2,HT:1,TH:1,TT:0}

那么,随机变量X的分布可以表示为:

P_X={0:0.25,1:0.5,2:0.25}

5期望与方差

期望是随机变量的平均值,方差是随机变量与其期望值的偏差的平方的平均值。期望和方差是描述随机变量分布的重要参数。

5.1示例

假设我们有一个随机变量X,表示抛一枚硬币两次正面朝上的次数,其分布为:

P_X={0:0.25,1:0.5,2:0.25}

那么,随机变量X的期望E(X)和方差Var(X)可以表示为:

E_X=sum([i*P_X[i]foriinP_X])

Var_X=sum([(i-E_X)**2*P_X[i]foriinP_X])

在这个例子中,E(X)=1,Var(X)=0.5。#概率论在计算机科学中的应用

6贝叶斯网络与机器学习

6.1原理与内容

贝叶斯网络是一种基于概率论的图形模型,用于表示变量间的条件依赖关系。在机器学习中,贝叶斯网络被广泛应用于分类、预测和决策制定。它通过联合概率分布来描述数据集中的不确定性,从而帮助我们理解和预测数据中的模式。

6.1.1代码示例

#导入必要的库

frompgmpy

您可能关注的文档

文档评论(0)

kkzhujl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档