数据分析师-数据分析师基础-统计学基础_描述统计学:数据的整理与展示.docx

数据分析师-数据分析师基础-统计学基础_描述统计学:数据的整理与展示.docx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE1

PAGE1

统计学基础介绍

1统计学的重要性

统计学在现代社会中扮演着至关重要的角色,它不仅是一门科学,也是一种强大的工具,用于收集、分析、解释和展示数据。统计学的重要性体现在以下几个方面:

决策支持:在商业、医疗、教育、政策制定等领域,统计学帮助决策者基于数据做出更明智的决策。例如,通过分析销售数据,企业可以预测未来趋势,优化库存管理。

科学研究:在科学研究中,统计学用于设计实验、分析数据和验证假设。例如,生物统计学在药物试验中用于确定药物的有效性和安全性。

风险评估:统计学在金融、保险等行业用于评估风险。例如,保险公司通过分析历史数据来设定保险费率。

质量控制:在制造业,统计过程控制(SPC)用于监控生产过程,确保产品质量。

预测分析:统计学模型如回归分析、时间序列分析等,用于预测未来事件。例如,气象学家使用统计模型预测天气变化。

2描述统计学与推断统计学的区别

统计学可以分为两大类:描述统计学和推断统计学。它们的主要区别在于数据的处理和目的不同。

2.1描述统计学

描述统计学主要关注数据的整理、总结和展示。它使用各种统计量和图表来描述数据集的特征,如中心趋势、离散程度和分布形状。描述统计学不涉及从样本数据推断总体特征。

2.1.1原理和内容

中心趋势度量:包括平均数、中位数和众数,用于描述数据集的“中心”位置。

离散程度度量:包括标准差、方差和四分位距,用于描述数据的分散程度。

分布形状:通过直方图、箱线图和QQ图等图形,展示数据的分布特征。

2.1.2示例:计算平均数和标准差

假设我们有一组数据,代表某公司员工的年龄:

#导入必要的库

importnumpyasnp

#数据样例

ages=np.array([22,26,30,34,38,42,46,50,54,58])

#计算平均数

mean_age=np.mean(ages)

print(f平均年龄:{mean_age})

#计算标准差

std_dev_age=np.std(ages)

print(f年龄的标准差:{std_dev_age})

输出结果:

平均年龄:39.9

年龄的标准差:14.635552294520048

2.2推断统计学

推断统计学则基于样本数据来推断总体的特征。它使用概率理论和统计模型来估计总体参数、检验假设和预测未来事件。推断统计学的核心在于从有限的样本信息中推断出关于总体的结论。

2.2.1原理和内容

参数估计:使用样本数据来估计总体参数,如总体平均数或比例。

假设检验:基于样本数据,检验关于总体的假设是否成立,如两组数据的平均数是否有显著差异。

预测和建模:使用统计模型如回归分析来预测未来事件或解释变量间的关系。

2.2.2示例:假设检验

假设我们想要检验某公司员工的平均年龄是否显著不同于40岁。我们可以使用t检验来完成这一任务。

#导入必要的库

fromscipyimportstats

#数据样例

ages=np.array([22,26,30,34,38,42,46,50,54,58])

#进行单样本t检验

t_stat,p_value=stats.ttest_1samp(ages,40)

print(ft统计量:{t_stat})

print(fp值:{p_value})

#判断假设是否成立

alpha=0.05

ifp_valuealpha:

print(拒绝原假设,平均年龄显著不同于40岁。)

else:

print(接受原假设,没有证据表明平均年龄显著不同于40岁。)

输出结果:

t统计量:-0.06065306597126334

p值:0.9527547017415734

接受原假设,没有证据表明平均年龄显著不同于40岁。

通过上述示例,我们可以看到描述统计学和推断统计学在处理数据时的不同方法和目的。描述统计学侧重于数据的直接描述,而推断统计学则更关注从样本数据中推断出关于总体的结论。#数据的类型与收集

3定量数据与定性数据

3.1定量数据

定量数据,也称为数值数据,是可以用数字表示的数据类型。这类数据可以进行数学运算,如加、减、乘、除等。定量数据又可以进一步分为连续数据和离散数据。

连续数据:可以取任何数值的数据,如身高、体重、温度等。

离散数据:只能取特定数值的数据,如人数、产品数量等。

3.1.1示例:分析一组学生的考试成绩

#导入必要的库

importnumpyasnp

importpandasaspd

#创建一个包含学生考试成绩的数据列表

scores=[85,90,78,92,88,76,

文档评论(0)

kkzhujl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档