大数据技术与应用赛项竞赛试题样卷.docx

大数据技术与应用赛项竞赛试题样卷.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术与应用赛项竞赛试题(样卷) 近年来随着IT 产业的加速发展,全国各地对IT 类的人才需求也越来越多“ABC 公司”为了明确今后IT 产业人才培养方向,在多地进行IT 公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息,并通过对数据的清洗和分析,得出各地域招聘人数,“大数据”相关职位招聘数量,以绘制雷达图展示各地平均薪资情况。 为完成该项任务,你所在的小组计划选用在业界广泛应用的“Python 和JAVA”语言,作为整个项目的基础语言,并综合利用requests 模块、MapReduce、MySQL、Flask 开源框架、Jinja2 模板引擎和ECharts 组件提高开发效率并实现项目要求,由于本次为模拟任务,总数据量不会过大,项目组计划使用分布式节点 Hadoop 模式, 本次项目环境搭建采用服务器集群方式,配置了小规模的技术演示环境,通过在招聘网站上爬取到的相关信息,使用 requests 模块、Hive、Python、JAVA 等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对IT 人才就业信息拥有更清晰的掌握。 请按照下面步骤完成本次技术展示任务,并提交技术报告。任务一:Hadoop 相关组件安装部署(15 分) 当前环境中已安装Hadoop 运行环境和MySQL 数据库,相关安装信息如下表所示,请在此环境基础上按照相关操作步骤安装 Hive 组件。 将指定路径下的Hive 安装包解压并更名; 设置Hive 环境变量; 编辑Hive 相关配置文件; 初始化Hive 元数据; 启动并保存输出结果。 任务二:数据采集与数据预处理(20 分) 从指定招聘网站中抓取数据,提取有效数据项,并保存为 json 格式文件; 设置post 请求参数并将信息返回给变量response; 将提取数据转化成json 格式,并赋值变量; 用with 函数创建 json 文件,通过json 方法,写入json 数据; 爬取的数据需要导入hadoop 平台进行数据清洗与分析,在HDFS 文件系统中创建文件夹,并将json 文件上传到该文件夹下。 任务三:数据清洗与分析(25 分) 为便于数据分析与可视化,需要对爬取出的数据进行清洗,使用Java 语言编写数据清洗的MapReduce 程序; 将清洗程序上传至hadoop,并对HDFS 的原始数据进行清洗; 将清洗后的数据加载到Hive 数据仓库中; 通过运行HQL 命令完成数据分析统计; 在hive 中执行sql 脚本,并查看表中大数据核心技能的出现次数。任务四:数据可视化(20 分) 为更好的将数据分析结果表达出来,需要对数据分析的结束进行可视化呈现,可视化呈现,本次数据可视化需要呈现三部分内容: 按要求使用柱状图展示各城市招聘人数,并在前端显示。要求: 主标题:各地域招聘人数 副标题:(--招聘人数变化趋势) 横坐标:城市信息,纵坐标:招聘人数输出柱状图 按要求使用折线图展示“大数据”相关职位招聘数量差异,并在前端显示。要求: 主标题:大数据相关职位分析 副标题:(--招聘数量变化趋势) 横坐标:岗位名称,纵坐标:岗位数量输出折线图 通过雷达图展示各地平均薪资的情况。要求: 主标题:各地平均薪资 输出雷达图 任务五:完成分析报告(15 分) 请结合数据分析结果回答以下问题: 根据分析结果说明大数据岗位所需要的主要技能包含哪些,为什么(4 分) 根据分析结果说明各地大数据产业发展情况(4 分) 根据市场需求分析,大数据行业的人才培养方向有哪些,为什么 (4 分) 请简述,今后大数据产业地域发展方向在哪里(3 分) 竞赛结果提交要求: 任务成果需拷贝至提供的U 盘中。在U 盘中以XX 工位号建一个文件夹(例如 01),将所有任务成果文档保存至该文件夹中。 竞赛提交的所有文档中不能出现参赛队信息和参赛选手信息, 竞赛文档需要填写参赛队信息时以工位号代替(XX 代表工位号)。

文档评论(0)

hao187 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档