- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据的标准化
前端时间有幸参加了公司的重点项目,项目主要是开发一个有哪些信誉好的足球投注网站引
擎的内核,改有哪些信誉好的足球投注网站引擎除了基本有哪些信誉好的足球投注网站能力外,还具备一定的内容分类、
语义分析等功能。其中引擎内核的数学模型中涉及到数据标准化的问
题,这里我根据个人的一些经验,总结了一些有关数据标准化的方法。
首先,数据标准化到底是什么?为什么要标准化?标准化后有什么
好处?这些都是我刚接触这个词的时候的一些想法,相信第一次接触的
人都会跟我一样。数据的标准化(normalization)是将数据按比例缩放,
使之落入到一个小的特定区间。如果是落到0-1区间,也可以叫为数据
归一化,也就是说数据归一化其实是数据标准化的一种特殊情况(有点
废话,=。=)。在某些比较和评价的指标处理中经常会用到,去除数据
的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标
能够进行比较和加权。
数据标准化种最典型的就是数据的归一化处理,即将数据统一映射
到[0,1]区间上,常见的数据归一化的方法有(要标准化到其他范围可以
采用乘以一个相应的系数处理):
最大值-最小值标准化
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,
具体公式模型如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方
法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,
需要重新计算一次max和min。
log函数标准化
通过以10为底的log函数转换的方法同样可以实现归一下,具体公
式模型如下:
网上很多介绍都只是x*=log10(x),其实是有问题的,这个结果得到
的数据不是都落到[0,1]区间上,应该还要除以log10(max),max为样本
数据最大值,并且所有的数据都要大于等于1。
arctan函数标准化
通过三角函数中的反正切函数也可以实现数据的标准化转换,具体
公式模型如下:
使用这个方法需要注意的是如果原始数据的区间是属于正负实数的
话,所得到的标准化后的去间为[-1,1]。若想只要[0,1]区间,数据都应该
大于等于0。
Z标准化(偏差法标准化)
运用最多的数据标准化方法是基于统计理论的偏差标准化,也叫标
准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差
为1,具体公式模型如下:
数据的标准化
前端时间有幸参加了公司的重点项目,项目主要是开发一个有哪些信誉好的足球投注网站引
擎的内核,改有哪些信誉好的足球投注网站引擎除了基本有哪些信誉好的足球投注网站能力外,还具备一定的内容分类、
语义分析等功能。其中引擎内核的数学模型中涉及到数据标准化的问
题,这里我根据个人的一些经验,总结了一些有关数据标准化的方法。
首先,数据标准化到底是什么?为什么要标准化?标准化后有什么
好处?这些都是我刚接触这个词的时候的一些想法,相信第一次接触的
人都会跟我一样。数据的标准化(normalization)是将数据按比例缩放,
使之落入到一个小的特定区间。如果是落到0-1区间,也可以叫为数据
归一化,也就是说数据归一化其实是数据标准化的一种特殊情况(有点
废话,=。=)。在某些比较和评价的指标处理中经常会用到,去除数据
的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标
能够进行比较和加权。
数据标准化种最典型的就是数据的归一化处理,即将数据统一映射
到[0,1]区间上,常见的数据归一化的方法有(要标准化到其他范围可以
采用乘以一个相应的系数处理):
最大值-最小值标准化
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,
具体公式模型如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方
法有一个缺陷就是当有新数据加入时,可能导
文档评论(0)