大数据数学基础第1章 绪论 (2).ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 绪论 * 目录 舍恩伯格在《大数据时代》一书中提到了大数据应该具备三种特征。 不是随机样本,而是全体数据 不是精确性,而是混杂性 不是因果关系,而是相关关系 大数据的定义 现阶段大数据领域比较通用的大数据定义是基于右图所示的5V,其中每个V的具体定义如下。 Volume:采集,存储和计算的数据量都非常大 Velocity:数据增长速度快,处理速度也快,时效性要求高 Variety:种类和来源多样化 Value:数据价值密度相对较低 Veracity:数据的准确性和可信赖度,即数据的质量 大数据的定义 信息化时代,大数据在各行业各领域中发挥着越来越重要的作用。 人们使用大数据技术从海量数据中挖掘信息,发现规律,探索潜在价值。 在大数据的研究和应用中,数学是其坚实的理论基础。 在数据预处理、分析与建模、模型评价与优化等过程中,数学方法扮演着至关重要的角色。 数学在大数据领域的作用 由于微积分是研究变化规律的方法,因此只要与变化、运动有关的研究都要或多或少与微积分发生联系,都需要运用微积分的基本思想和方法,可以说微积分的创立极大地推动了生活的进步。 微积分是整个近代数学的基础,有了微积分,才有了真正意义上的近代数学。 统计学中的概率论部分就是建立在微积分的基础之上的。 微积分的基础——极限论,在概率论中运用广泛,如分布函数的性质、大数定律、中心极限定理等。 随机变量的数字特征、概率密度与分布函数的关系、连续型随机变量的计算等,是微积分现有成果的直接应用。 数学在大数据领域的作用 1. 微积分 统计学是一门基于数据的科学,是一种研究数据搜集、整理、分析与应用的方式和方法。 统计工作本身就是数据的搜集、整理、分析、解释这样一个系统的过程。 数据需要通过统计的方法和原理来整理和分析,这样的数据在精确度和适用度方面才会有较高的提升,才会实现数据的真正价值。 大数据的分析与挖掘等工作,从数据预处理开始,至建模得出结论,无不存在着统计学的身影。 数学在大数据领域的作用 2. 统计学 线性代数领域的矩阵、秩、向量、正交矩阵、向量空间、特征值与特征向量等概念在大数据分析、建模中发挥着巨大的作用。 在大数据中,许多应用场景的分析对象都可以抽象表示为矩阵,大量Web页面及其关系、微博用户及其关系、文本数据中文本与词汇的关系等都可以用矩阵表示。 以矩阵为基础的各种运算,如矩阵分解是分析对象、特征提取的途径,因为矩阵代表了某种变换或映射,因此分解后得到的矩阵就代表了分析对象在新空间中的一些新特征。 特征分解(Eigen Decomposition)和奇异值分解(Singular Value Decomposition)等在大数据分析中的应用十分广泛。 数学在大数据领域的作用 3. 线性代数 数值计算是求解工程实际问题的重要方法之一,随着工程问题规模的不断增大,相比理论研究和实验研究,其实用价值更大。 在大数据时代的背景下,数据分析、数据挖掘、机器学习等算法中常见的插值、数值逼近、非线性方程求解等,都属于数值计算的范畴。 从更高的层面看,数值计算指有效使用数字计算机求数学问题近似解的方法与过程,几乎涵盖了所有涉及复杂数学运算的计算机程序。 数值计算主要研究如何利用计算机更好的解决各种数学问题,包括连续系统离散化和离散型方程的求解,并考虑误差、收敛性和稳定性等问题。 数学在大数据领域的作用 4. 数值计算 多元统计分析简称多元分析,是从经典统计学中发展起来的一个分支,是数理统计学中的一个重要的分支学科,是一种综合分析方法。 多元分析在大数据分析中有非常广泛的应用,能够在多个对象和多个指标互相关联的情况下,分析它们的统计规律。 多元分析的主要内容包括回归分析、判别分析、聚类分析、主成分分析(PCA)、因子分析、典型相关分析等,这些分析方法在大数据领域都有着非常广泛的应用。 数学在大数据领域的作用 5. 多元统计分析 目录 base程序包是R语言的基础包,其包含了R语言最为一种语言基本功能,如算术、输入/输出、基本编程支持等。base程序包常用于数学计算的函数及其说明如下表所示。 base 函数名 说明 intersect 用于计算集合的并 union 用于计算集合的交 setdiff 用于计算集合的差 expression 用于表示函数的表达式 derive3 用于高阶求导 polyroot 用于求解实数多项式方程或复数多项式方程 matrix 用于创建矩阵 diag 用于创建单位矩阵,或提取矩阵的主对角线元素 lower.tri 用于提取矩阵的上三角矩阵 upper.tri 用于提取矩阵的下三角矩阵 ba

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档