- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
准备预测建模
准备预测建模(1)
模型
模型:模型可以是和我们能够观察和测量的数量值的一些方程,也可以是一套规则。
由于输入中具有噪声,这使得更复杂的模型的精度增加失去了意义,采用简单模型的另外一种情况是,在应用中我们根本不需要更复杂的模型。第三种情况是,更复杂的模型涉及我们无法测量的数值。最后,如果因为复杂度的关系,模型会需要太长时间进行训练或预测,我们也不会使用更复杂的模型。
我们要学习的模型具有两个本质的特征:
(1):预测分析学是根据数据来构建模型的;
(2):在根据某些数据创建模型来描述特定现象的过程中,我们必然会遇到某些随机性的来源,我们称之为模型的随机性成分(stochastic)或不确定性成分(nondeterministic component)。有时我们要尝试建模的系统本身并没有任何内在的随机性,而是数据包含了随机成分。数据的随机性的一个来源就是测量误差。不???含随机成分的模型成为确定性模型。随机模型则是假设在建模的过程中含有内在的随机源的模型。有时候这些随机源的来源是来自这样一个事实:对最有可能影响系统的所有变量都进行测量是不可能的,因而我们只能利用概率来对其进行建模。
4.R中预装了很多常被引用的数据集,使用命令data()可以查看。
5.自变量(independent variable)=特征(feature)=属性(attribute)=预测因子(predictor)=维度(dimension)
6.因变量(dependent variable)=输出(output)=目标(target)
7.误差可以分为:可化简误差(reducible)和不可化简误差(irreducible)。可化简误差本质上是预测建模者能够通过选择模型结构来使之最小化的误差。一个不可简化的误差的示例是当我们尝试根据不充分的特征集来创建模型时产生的。
8.给一个模型加入更多特征的一些潜在的实际后果包括:增加训练模型所需要的时间,增大收敛到最终解决方案的难度,以及在特定情况下(例如特征值是高度相关的)实际上会降低模型的精度。最后另外一个我们必须接受的不可化简的误差来源是数据本身就是有噪声的。
模型的核心组成部分;
带有需要调优参数的一组方程;
代表我们建模所针对系统或过程的一些数据;
描述该模型拟合优度的一个概念;
更新参数以改善该模型拟合优度的一个方法。
第一个模型:k阶近邻模型(k-nearest neighbor, kNN)
这种简单的方法实际上会避免构建一个明确的模型来表示数据的特征如何组合从而产生一个目标函数。相反,它依赖于一个概念,也就是我们对之前没有见过的一个数据点进行预测,就要在原始训练数据中查找k个和新数据点最相似的的观测数据,然后就可以针对已知的这k个邻居的目标函数值,利用某种求均值的技术来计算出一个预测值。
下面利用iris数据集来说明:
R语言中预装了很多常被引用的数据集,例如鸢尾花数据集R(iris data set)。
使用data()命令可以查看R中预装数据集的列表清单。要修改某一数据集中的数据,可以把待分析的数据集名作为输入参数提供给data()命令:
data(iris)
head(iris, n=3)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
假设我们收集了一份未识别的新鸢尾花的样本,它具有如下的观测值:
new_sample=c(4.8,2.9,3.7,1.7)
names(new_sample)=c(Sepal.Length,Sepal.Width,Petal.Length,Petal.Width)
new_sample
Sepal.Length Sepal.Width Petal.Length Petal.Width
4.8 2.9 3.7 1.7
我们打算用kNN算法来预测应该用鸢尾花的哪种样本来标识新样本。
第一步:确定新样本的k个最邻近样本。为此要定义观测数据的相似性,常用的方法是计算特征空间里两条观测数据之间的数量化距离,要在特征空间里计算两条观测数据的距离,经常利用欧几里得距离(Euclidean distance),它是两点之间的直线长度。
首先,对鸢尾花数据构造子集,它只包括
文档评论(0)