大数据处理技术 其它 回归分析实验.doc

大数据处理技术 其它 回归分析实验.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE PAGE 1 回归分析实验 【实验原理】 数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术。数据挖掘的任务有分类分析、回归分析、关联分析、聚类分析、异常分析等。 ?????? Weka是世界上知名的数据挖掘平台,可以执行各种常见的数据挖掘任务,其存储数据的格式是ARFF。 ?????? 本实验将使用Weka对常用的分类分析进行实验。 ?????? 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 ?????? 例子:根据天气情况,确定是否适合出去游玩。 ?????? 训练集: outlook temperature humidity windy play sunny hot high FALSE no sunny hot high TRUE no overcast hot high FALSE yes rainy mild high FALSE yes rainy cool normal FALSE yes rainy cool normal TRUE no overcast cool normal TRUE yes ?????? 各字段分别代表:天气(晴、阴、下雨),气温(热、中、冷),湿度(高、中、低),是否有风,是否适合出去游玩。 根据上述训练集,利用现有的分类算法可以创建出创建分类模型,然后可以推理出“在其他天气情况下,是否适合出去游玩”。 【实验内容】 熟悉Weka数据挖掘平台的基本功能 对数据进行简单的数据分类 【实验指导】 打开Windows实验台,运行Windows2003系统。 一.安装Weka 运行“weka-3-6-7jre.exe”,不停点击“Next”,将Weka安装到计算机中 二.打开Weka 进入“C:\Program Files\Weka-3-6”目录,双击“Weka 3.6”进入Weka主界面,如下图 图3.4.2-1 Weka主界面 点击“Explorer”后会出现如下图所示的Explorer界面,其中 Preprocess 选项卡被选中。 图3.4.2-2 Explorer界面 三.回归分析实验 打开训练集 用记事本打开“baskball.arff”,观察里面有哪些属性,哪些样本。 选择 Open file 按 钮并选择“baskball.arff”。在选择了文件后,WEKA Explorer 应该 类似于下图中所示的界面。 在这个视图中,WEKA 允许您查阅正在处理的数据。在 Explorer 窗口 的左边,给出了您数据的所有列(Attributes)以及所提供的数据行的数量(Instances)。若选择一列,Explorer 窗口的右侧就会显示数据集内该列数据的信息。 比如,通过选择左侧的 height列,屏幕右侧 就会变成显示有关该列的统计信息。它显示了数据集内此列的最大值为 203厘米,最小值为160厘米,平均大小为189.875厘米,标准偏差为 6.96厘米(标准偏差是一个描述差异的统计量度)。 图3.4.2-3 打开baskball的Explorer界面 单击 Visualize All 按钮,还可以看到每个属性的样本分布情况,如下图,在Height属性上,身高在1米92到1米97的运动员最多,有29名。 图3.4.2-4 baskball的各属性的样布分布 对训练集生成线性回归模型 回到Explorer界面,点击“Classify”选项卡,单击Choose按钮,然后扩展 functions 分支,选择 LinearRegression 叶,如下图所示。 图3.4.2-5 选择LinearRegression算法 选中“Use training set”,然后点击“Start”,即可创建一个回归模型,如下图。可以看到该回归模型是一个数学公式“points_per_minute =-0.587 * assists_per_minute + 0.0078 * time_played + 0.3116”。 图3.4.2-6 创建回归模型 利用生成的回归模型,对测试集进行测试 用记事本打开“baskball_test.arff”,观察两个测试样本,其中?表示需要计算的每分钟投篮得分。具体内容如下图 图3.4.2-7 记事本打开baskball测试集 回到Explorer界面的Classfy页面,选中“Supplied test set”,然后点击“Set”,再点击“Open file”,将“baskball_test.arff”加入,然后点击“More options”,在弹出的对话框中将“Output Predictions”前的复选框选中,然后点击O

文档评论(0)

WanDocx + 关注
实名认证
内容提供者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档