第十七届山东省大学生软件设计大赛命题大数据分析与应用命题教师-司冠南韩帅命题学校-山东交通学院.docxVIP

第十七届山东省大学生软件设计大赛命题大数据分析与应用命题教师-司冠南韩帅命题学校-山东交通学院.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 第十七届山东省大学生软件设计大赛命题 大数据分析与应用 命题教师:司冠南 韩帅 命题学校:山东交通学院 命题企业:北京以利天诚科技有限公司 QQ群:427674697 一、项目背景 信息科技经过 60 余年的发展,已经从高端科技普及到社会运转的每一个角落中。随着信息技术在国家治理、经济运行的方方面面的运转,大量的数据随之产生。而互联网技术的爆发式发展使得近两年来产生的数据总量超过了人类有史以来的数据总和。如何利用这些数据,挖掘数据的深层价值,是未来信息科技发展的趋势,也是大数据技术产生的背景。 本赛项的设置,是为提高大数据专业学生的综合实践能力,适应大数据开发应用产业对高素质技术技能型人才的需求,重点检验学生对数据获取,数据处理,数据分析,数据可视化等操作流程的实际动手能力。激发学生对大数据知识和技术的学习兴趣,提升学生能力和素质,努力为中国大数据应用产业发展储备及输送新鲜血液。 通过本大赛,提升高校电子信息类及相关专业毕业生能力素质,满足社会用人需求,实现行业资源、企事业资源与教学资源的有机融合,使高校在专业建设、课程建设、人才培养方案和人才培养模式等方面,跟踪社会发展的必威体育精装版需要,缩小人才培养与行业需求差距,促进专业教学建设和教学改革。 希望通过本次大赛,实现以下实践意义: 1、可以极大的提高学生的大数据挖掘、分析实践经验,有助于大学生对大数据挖掘、分析工具、语言的熟练应用,有助于学校学习的理论知识和实践相结合。 2、掌握大数据分析的方法和思路,切实了解社会对大数据技能的需求。 二、命题方向 每团队3-5人,请使用目前流行的大数据框架与分析挖掘工具,如:Hadoop、Spark、R语言等,完成一个实用的软件系统,为行业、企业或个人生活提供有益的支持。选题方向可结合以下方面: (1)工业系统数据分析:通过分析真实的工业应用系统数据,为该系统的功能或性能优化提出可行的建议。 (2)网页文本信息的获取与处理:通过对真实网页数据的爬取与搜集,为政府、企业或个人提供有价值的信息,如:舆情信息、某一方面的流行趋势、热门话题等信息。 (3)公共交通数据的分析与挖掘:通过分析真实的公共交通流量数据,如:道路交通数据、铁路客运信息、民航客票信息等,提出线路优化或个人出行建议。 (4)生活服务信息的个性化推荐:针对某一真实的应用场景,如:景点、商场、学校等,建立使用的推荐系统,用户通过文字方式输入问题,系统自动分析问题并根据用户特征给出合理答案。 (5)下述举例几个细分的选题,可用于参考: A、飞机出行指南:由济南出发,飞往不同城市,给定确定的出行日期及目的地,预测提前多少天购票最便宜,(如购买3月11日由济南飞往北京的机票,建议提前几天购买最便宜),数据要求持续抓取时长不少于100天,目的城市不少于25个,需爬取各大购票网站。 B、国内宜居城市指南:可抓取目标城市的空气指数、温度、湿度、GDP、天气、自然灾害、房价、人口密度等数据进行分析,推荐出宜居城市,要求参考城市不少于25个。 C、饮食业创业指南:从各大美食网站抓取餐厅的店铺评分、店铺评价、地理位置、菜品销量、菜品口味、菜品价格、餐饮类型等数据,给出餐饮创业建议,要求参考城市不少于10个。 三、数据处理流程 以下是本命题的数据处理流程图: 开发学习准备阶段 自选命题内容,制定需求方案、技术方案。进行自主或其他形式的学习培训,有针对性、有目标地进行大数据技能的学习准备。 学习阶段推荐使用“以利天诚大数据教学实训平台”。 原始数据准备 可使用自己熟悉的语言编写网络爬虫,也可以使用网上的开源或商业工具对互联网信息进行抓取,抓取网站可选择知名度较高的网站,抓取的数据量要足够多。具体抓取信息内容可根据最终分析内容进行选取。 此阶段要求完成计算机相关专业的就业前景分析的原始数据准备工作即可,若能保证易用性,通用性可成为加分项。例:以客户端或B/S架构等形式提供,可自由输入目标网站和目标数据,使爬虫程序可根据现实需求快速改变原始数据的内容。 数据存储 上一步所抓取下来的数据,可存储于Apache Hadoop平台的HDFS中,为后续的数据处理和可视化做准备,对存储的类型不做限制,也可以用其他的平台和容器存储。 数据处理 数据处理手段可自主选择。 通过对原始数据半结构化数据的清洗、转换和汇总形成结构化数据后可以为后续数据分析提供直接可用的数据源。 本阶段的项目目标是为后续数据分析提供直接可用的资源即可。若满足以下几点优化,可作为加分项: 大数据平台性能调优,可利用调优前后的数据对比形成分析分档,说明调优目的,调优方法。 易用性和通用性:以客户端或B/S架构等形式提供操作界面,可对目标数据进行相应的可选择处理操作,最终在制定的位置或目标存储系统中生成优质数据。 数据分析 数据分析的技术

您可能关注的文档

文档评论(0)

189****0315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档