大数据分析方法与应用课后习题及答案耿秀丽.docx

下载文档

0
0
约1.9万字
约 26页
2024-11-01 发布于山东
举报
版权申诉
保障服务

大数据分析方法与应用课后习题及答案耿秀丽.docx

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第1章课后习题及答案

1.大数据的4V特征是什么？

Volume（体量巨大）、Variety（种类繁多）、Velocity（处理速度快）和Value（价值密度低）是大数据的4个主要特征。

2.请简述大数据处理流程。

大数据分析是一个目的明确的过程，其过程概括起来主要包括：目标确定、数据收集、数据预处理、数据挖掘、数据建模与分析、数据可视化、结果分析和报告。

3.分布式计算在大数据分析中有哪些作用？

提高计算效率、提高系统可靠性、实现更高的扩展性、降低计算成本。

4.你认为在5G时代下大数据还有哪些新应用？

（1）“大国粮仓”龙江5G数字农场（北大荒）

中国联通“大国粮仓”5G数字农场项目，基于中国联通5G网络，应用于北大荒农场，打造世界先进的5G数字农场，打通“人、地、机、物、环”生产作业全要素，贯穿“耕种管收”全环节，以生产经营管理为核心，搭建“1+1+N”架构，即1张5G核心网，完成农业生产“感联智控”；1个农业智脑，整合物联、数据、业务、AI、GIS等中台，进行统一的平台支撑和智能服务；聚焦“黑土地保护+无人化作业”形成“N”项5G智慧农业应用，激活农业发展要素资源，提高生产效率，降低生产成本，实现黑土地防治管护、无人农机智能作业等全方位创新场景，实现水、肥、药施用量节约20%以上，人力成本降低10%以上，每亩增产5-10%。通过5G赋能万亩良田，设施、装备、机械数字化、智能化改造，实现全产业链智慧农业。

（2）5G助力天津港打造智慧、绿色的世界一流港口

天津港是京津冀的海上门户，是“一带一路”的战略支点，也是中国联通在港口领域重要战略合作伙伴之一。天津联通携手天津港匠心打造5G智慧港口，采用“边生产、边改造”的建设方式，相继攻克世界性智慧港口建设诸多难题，落地了5G智能无人集卡、5G岸桥远程控制、5G智能理货、5G智能加解锁站、四大5G创新应用场景，成为全球首个获批建设的港口自动驾驶示范区、实现全球首个无人集卡场景下陆侧“一键着箱”、实现国内首家集装箱智能理货系统内外理一体化运行、建成全球首台集装箱地面智能解锁站、建成全球首个集装箱设备任务集成管理系统ETMS。

5.请举例说明生活中大数据的应用。

第2章课后习题及答案

1.总体和样本的定义？

答案：总体是具有特定属性的对象的全体，样本是某个总体的一部分。

2.区分以下数据哪些是总体，哪些是样本？

（1）从某大学6000个宿舍中随机抽查100间宿舍进行安全检查。

（2）从一批灯泡中随机挑选20个抽样检查。

（3）对某小区所有的老人进行身体检查。

答：（1）（2）是样本；（3）是总体

3.定性数据和定量数据的定义？

答：定性数据（也称为名义数据）是一种用于描述各种类别或属性的数据。它们表示不同的类型，但没有排序或量化关系。定性数据仅提供了有关事物所属类别的信息，而不提供数量或程度的度量；

定量数据是以数字表现的数据，它可以被测量、计算和比较。在研究中，定量数据常用于收集、分析和解释现象和事实。

4.截面数据和时间序列数据的定义？

答：截面数是指在同一时间点上对某个总体进行测量所得到的数据。这种数据收集方法通常是在同一时间点上进行的，因此被称为截面数据；

时间序列数据是一种按时间顺序排列的观测值的集合，这些观测值通常按照固定的时间间隔采集。

5.协方差和相关系数的定义？

答：协方差是描述两个随机变量之间关系的统计量。它用于衡量两个变量在同一时间段内的变动趋势是否同向或相反；

相关系数定量地刻画两个随机变量的相关程度。

第3章课后习题及答案

1.设SSR=36，SSE=4，n=18。

（1）计算判定系数R2并解释其意义。

（2）计算估计标准误差Se并解释其意义。

解：

（1）R2=90%表示在因变量y取值的变差中，有90%可以由x与y之间的线性关系来解释。

（2）Se=0.5表示，当用x来预测y时，平均的预测误差为0.5。

2.下面是7个地区2000年的人均国内生产总值（GDP）和人均消费水平的统计数据：

表3-82000年统计数据

地区

人均GDP/元

人均消费水平/元

北京

22460

7326

辽宁

11226

4490

上海

34547

11546

江西

4851

2396

河南

5444

2208

贵州

2662

1608

陕西

4549

2035

求：

（1）人均GDP作自变量，人均消费水平作因变量，绘制散点图，并说明二者之间的关系。

（2）计算两个变量之间的线性相关系数，说明两个变量之间的关系强度。

（3）求出估计的回归方程，并解释回归系数的实际意义。

（4）计算判定系数，并解释其意义。

（5）检验回归方程线性关系的显著性（）。

（6）如果某地区的人均GDP为5000元，预测其人均消费水平。

（7）求人均GDP为5000元时，人均消费水平95

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

大数据分析方法与应用课后习题及答案耿秀丽.docx