大规模谱聚类算法开发.doc

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学士学位论文论文题目基于的医疗和金融大数据算法工具包的开发学生姓名姚春楠学生学号专业信息工程指导教师袁焱学院系电子信息与电气工程学院基于的医疗和金融大数据算法工具包的开发摘要大数据时代要求人们用最快的速度对海量数据进行分析以求挖掘出数据内隐藏的宝贵信息在互联网大数据发展得如火如荼的今天医疗和金融方向的大数据值得我们进行更深入的探索发现其中最重要的三个领域就是数据预处理大规模统计分析大规模聚类算法在实际应用中我们所面对的数据体量往往无法用一台机器存储和计算于是我们需要分布式存储和并行计算平台来达成

SHANGHAI JIAO TONG UNIVERSITY 学士学位论文 BACHELOR’S THESIS 论文题目:基于Spark的医疗和金融大数据算法工具包的开发 学生姓名: 姚春楠 学生学号: 5110309682 专 业: 信息工程 指导教师: 袁焱 学院(系): 电子信息与电气工程学院 基于Spark的医疗和金融大数据算法工具包的开发 摘要 大数据时代要求人们用最快的速度对海量数据进行分析,以求挖掘出数据内隐藏的宝贵信息。在互联网大数据发展得如火如荼的今天,医疗和金融方向的大数据值得我们进行更深入的探索发现。其中最重要的三个领域就是数据预处理、大规模统计分析、大规模聚类算法。在实际应用中,我们所面对的数据体量往往无法用一台机器存储和计算,于是我们需要分布式存储和并行计算平台来达成目的。Apache Spark是近年备受关注的并行计算架构之一。本文基于对Spark架构和前人的理论研究的理解,进行了目标算法的多种实现和性能比较,最终选择最优的方法力图最大程度地提高大数据分析的速度以满足实际应用中对数据分析时效性的要求。本文还将算法实现与数据可视化开源软件融合,使得上述三个领域的需求均能在Spark平台上通过优良的算法性能、生动的可视化效果予以满足。 关键词:数据分析,Spark,聚类,分布式,并行计算 BIG DATA ANALYSIS TOOLKIT FOR MEDICAL AND FINANCIAL CASES BASED ON APACHE SPARK ABSTRACT In the era of Big Data, people want to analyze massive datasets as fast as possible and mine the value behind the veil. While the Internet industry has embraced this trend, in medical and financial fields, deeper explorations are needed, specifically, data preprocessing, massive statistical analysis, large-scale spectral clustering, etc. In real cases, single machine cannot store and compute all the data, thus we need to use distributed storage system and parallel computing platforms to achieve our goals. Apache Spark has been one of the most charming parallel computing software in the past few years. This paper implements algorithms on large datasets by multiple ways and through comparing their performance, it shows ways to develop efficient big data analysis toolkit for medical and financial cases based on Spark. This paper also docks the algorithms with data visualization tools for better user experiences. Key words: Data Analysis, Spark, Clustering, Distributed System, Parallel Computing 目 录 第一章 绪论 1 1.1 课题研究背景 1 1.1.1大数据应用的研究概况 1 1.1.2 开发用于大规模医疗和金融分析的算法工具包的意义 1 1.2 大规模并行计算的研究概况 2 1.2.1 计算架构 2 1.2.2 并行化数据挖掘算法 3 1.3 本文内容与研究意义 3 1.3.1 实现内容与应用场景 3 1.3.2 重点解决的问题 4 1.4 论文结构安排 4 第二章 系统架构的设计 5 2.1 分布式文件系统和并行计算引擎 5 2.2 算法工具包 6 2.3 用户接口 6 2.4

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档