李舰-数据科学概论-李扬-ch9.pptxVIP

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库和数据仓库;数据结构简介 数据库和 SQL 数据仓库和商业智能;3;在计算机科学里,数据结构指互相之间存在着一种或多种特定关系的数据元素集合。 描述这些关系而抽象出来的数学模型称为逻辑结构,主要包括: ? 集合结构 ? 线性结构 ? 树形结构 ? 图形结构;计算机科学通常从数据的存储阶段开始关注,但数据科学需要更早的介入,在数据的采集或观测阶段开始考虑数据的测量测度。 参照统计学中的定义,数据科学也将数据的测量尺度分为四类: ? 定类尺度 ? 定序尺度 ? 定距尺度 ? 定比尺度;定类尺度(Nominal Measurement)是按照事物的特征辨别和划分异同的测量层次,也称为类别尺度、名义尺度。 例如性别数据,可以用 1 代表男性,用 2 代表女性。这两个数值只描述差异,不存在大小之分,可以进行 “=” 和“?=” 运算。 在一些统计计算语言中(例如 R)会使用 “因子” 这一特殊的结构来描述定类尺度的数据变量。;定序尺度(Ordinal Measurement)是按照事物的特征依顺序和级别进行排列的测量层次,也称为顺序尺度、等级尺度。 例如收入数据,可以分为低收入组、中等偏下收入组、中等收入组、中等偏上收入组、高收入组这五个级别。每个级别的收入不同,且层层上升,具有顺序关系。 在数据的计量和分析中,研究者通常使用顺序增加的编号来描述,例如第 1、2、3、4、5 组。该尺度的数据除了可以进行 “=” 和 “?=” 运算外,还能进行 、、≤ 和 ≥ 运算。;定距尺度(Interval Measurement)是既能将事物区分类别和等级,又可以确定其之间数量差别、间隔距离的测量层次,也称为间隔尺度、区间尺度。 在收入等级中,虽然不同等级存在大小的区别,但分割方式并不一定均匀,第 1 级和第 2 级的差距很可能比第 4 级和第 5 级的差距小得多。 但是有些数据(例如气温),从 20 ? C 上升到 30 ? C 和从30 ? C 上升到 40 ? C 的变化是相同的。该尺度下的数字之间除了可以比较大小之外,其差额也是有意义的,因此还支持+ 和 ? 运算。;定比尺度(Scale Measurement)是在定距尺度上增加绝对零点的测量层次,也被称为等比尺度、比率尺度。 类似温度的数据,因为 0 ℃ 并不是绝对零点,所以 40 ℃不能说是 20 ℃ 的两倍。没有一个固定的原点的话,数字之间的比例关系就没有意义。 但是有些数据(例如重量)衡量了物体的质量,由于最小值近似为 0,所以 100kg 是 50kg 的 2 倍。这样的测量尺度除了可以进行 + 和 ? 运算外,还可以进行 × 和 ÷ 运算。;数据类型(Data Type)是一个值的集合和定义在这个值集上一组操作的总称,最早出现在一些高级程序设计语言中,用来刻画程序操作对象的特性。 一般来说,数据类型可以分为两类:一类是原子类型,另一类是结构类型。;原子类型的值是不可分解的,例如 C 语言包含的 ? 整型(int) ? 字符型(char) ? 浮点型(float) ? 双精度型(double) 很多其他编程语言的基本类型都相似,可能名称略有不同。;整型表示整数,一般在内存中占两个字节。有些编程语言还有长整型(long)结构,占四个字节。 有一类比较基础的数据类型逻辑型在很多编程语言中实际上是基于整型数据存储,通常用 0 和 1 表示,但是可以声明成逻辑型,并支持逻辑运算。 R 和 Python 中的逻辑型数据都可以同时支持整数和逻辑运算,也可以很容易地转化成整型数据。;浮点型和双精度型都用来表示实数。由于计算机只能存储整数,所以实数都是约数,需要指定精度。 单精度的实数(Single Real)在内存中占 4 个字节,通常可以保存 8 位有效数字(1 位整数加 7 位小数),在 C 语言等编程语言中被称为浮点型数据。 双精度的实数(Double Real)在内存中占 8 个字节,通常可以保存 16 位有效数字,在 C 语言等编程语言中被称为双精度型数据。 R 不区分浮点型和双精度型,使用一个单独的数值型(numeric)作为原子类型。;C 语言等编程语言中的字符型数据代表单个的字符,作为原子类型而存在。如果需要表示字符串,就使用结构类型的字符串,并提供一些字符串操作的函数或方法。 R 和 Python 中不区分字符与字符串,都用字符这种原子类型来表示,极大地简化了操作,非常方便数据科学的使用。;不同编程语言在原子类型基础上大都提供了一些复合的结构,称为结构类型。其值通常由一些基础元素按照某种结构组成,在不同的应用领域,适用于不同的结构。 例如 R 和 Python 中的数组就是典型的结构类型。每个基本元素都是数值或者字符,可以实现一些数组操作和矩阵运

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档