- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学士学位论文论文题目基于的医疗和金融大数据算法工具包的开发学生姓名姚春楠学生学号专业信息工程指导教师袁焱学院系电子信息与电气工程学院基于的医疗和金融大数据算法工具包的开发摘要大数据时代要求人们用最快的速度对海量数据进行分析以求挖掘出数据内隐藏的宝贵信息在互联网大数据发展得如火如荼的今天医疗和金融方向的大数据值得我们进行更深入的探索发现其中最重要的三个领域就是数据预处理大规模统计分析大规模聚类算法在实际应用中我们所面对的数据体量往往无法用一台机器存储和计算于是我们需要分布式存储和并行计算平台来达成
SHANGHAI JIAO TONG UNIVERSITY
学士学位论文
BACHELOR’S THESIS
论文题目:基于Spark的医疗和金融大数据算法工具包的开发
学生姓名: 姚春楠
学生学号: 5110309682
专 业: 信息工程
指导教师: 袁焱
学院(系): 电子信息与电气工程学院
基于Spark的医疗和金融大数据算法工具包的开发
摘要
大数据时代要求人们用最快的速度对海量数据进行分析,以求挖掘出数据内隐藏的宝贵信息。在互联网大数据发展得如火如荼的今天,医疗和金融方向的大数据值得我们进行更深入的探索发现。其中最重要的三个领域就是数据预处理、大规模统计分析、大规模聚类算法。在实际应用中,我们所面对的数据体量往往无法用一台机器存储和计算,于是我们需要分布式存储和并行计算平台来达成目的。Apache Spark是近年备受关注的并行计算架构之一。本文基于对Spark架构和前人的理论研究的理解,进行了目标算法的多种实现和性能比较,最终选择最优的方法力图最大程度地提高大数据分析的速度以满足实际应用中对数据分析时效性的要求。本文还将算法实现与数据可视化开源软件融合,使得上述三个领域的需求均能在Spark平台上通过优良的算法性能、生动的可视化效果予以满足。
关键词:数据分析,Spark,聚类,分布式,并行计算
BIG DATA ANALYSIS TOOLKIT
FOR MEDICAL AND FINANCIAL CASES
BASED ON APACHE SPARK
ABSTRACT
In the era of Big Data, people want to analyze massive datasets as fast as possible and mine the value behind the veil. While the Internet industry has embraced this trend, in medical and financial fields, deeper explorations are needed, specifically, data preprocessing, massive statistical analysis, large-scale spectral clustering, etc. In real cases, single machine cannot store and compute all the data, thus we need to use distributed storage system and parallel computing platforms to achieve our goals. Apache Spark has been one of the most charming parallel computing software in the past few years. This paper implements algorithms on large datasets by multiple ways and through comparing their performance, it shows ways to develop efficient big data analysis toolkit for medical and financial cases based on Spark. This paper also docks the algorithms with data visualization tools for better user experiences.
Key words: Data Analysis, Spark, Clustering, Distributed System, Parallel Computing
目 录
第一章 绪论 1
1.1 课题研究背景 1
1.1.1大数据应用的研究概况 1
1.1.2 开发用于大规模医疗和金融分析的算法工具包的意义 1
1.2 大规模并行计算的研究概况 2
1.2.1 计算架构 2
1.2.2 并行化数据挖掘算法 3
1.3 本文内容与研究意义 3
1.3.1 实现内容与应用场景 3
1.3.2 重点解决的问题 4
1.4 论文结构安排 4
第二章 系统架构的设计 5
2.1 分布式文件系统和并行计算引擎 5
2.2 算法工具包 6
2.3 用户接口 6
2.4
您可能关注的文档
- 城生活方式的主要特征和功能-登录-社会学研究.pdf
- 城设计中健康影响评价hia方法的应用.pdf
- 城空间管理及研究方法讲座.ppt
- 城乡居民糖尿病健康素养调查问卷-中国健康教育中心.doc
- 城土地的景观设计适宜性评价【例如】-浙江大学公共管理学院.ppt
- 城依托型山岳景区游客亲环境行为.pdf
- 城中心商业区停车需求预测模型及实证研究.pdf
- 程式买卖的兴起及意义.pdf
- 充分发挥学科教学中情感教育功能.ppt
- 充分发展教师才能1.ppt
- 美股系列报告(六):美国大选结果出炉,后续资产将如何演绎?-241106-浦银国际-14页.pdf
- 如何应对财政扩张对于债券市场的潜在冲击-241105-信达证券-26页.pdf
- 两轮供给侧改革的回顾-241106-华创证券-18页.pdf
- 2024年中国游戏产业IP发展报告.pdf
- 流动性周度观察-241104-国新证券-12页.pdf
- 商业贸易行业:新质生产力%2b服务消费,开辟更多增量空间-241106-华西证券-39页.pdf
- 寒武纪-U(688256)国产算力核心,时代的主角-241105-国盛证券-20页.pdf
- 建筑材料行业:地产交易再创新高,关注产业链底部反转-241103-华西证券-22页.pdf
- 煤炭开采行业研究简报:6月以来美国化石能源发电量占比超过中国-241103-国盛证券-11页.pdf
- 量化分析报告:2024年三季报行业个股超预期扫描-241105-民生证券-19页.pdf
文档评论(0)