《商业数据挖掘》实验指导书2012年2月1、实验目的及要求本课程实验.doc

《商业数据挖掘》实验指导书2012年2月1、实验目的及要求本课程实验.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《商业数据挖掘》实验指导书2012年2月1、实验目的及要求本课程实验.doc

 PAGE \* MERGEFORMAT 4 《商业数据挖掘》实验指导书 2012年2月 实验目的及要求 本课程实验目的是在数据挖掘理论学习的基础上,将所学应用到实践中,检验理论学习的质量,提高知识运用能力。实验软件为SPSS和WEKA,数据集由教师提供。要求学生系统掌握数据挖掘的基本概念、原理和应用过程,通过课程实验,提高学生数据挖掘技术的认识,熟悉基本工具应用,并掌握设计和开发数据挖掘算法和系统的初步能力。 实验基本原理与功能 本课程实验属于借助实验软件的基本功能,结合特定管理问题背景,针对围绕特定问题所收集的数据,选择适当的数据挖掘算法进行数据分析,并解释数据挖掘结果,同时完成有关算法性能分析和优化工作。 实验主要技术指标 实验的技术指标依实验任务的不同而不同,本实验总共设计五个基本实验任务,它们的技术指标如下: 1)数据基本统计分析:本实验要求学生运用SPSS软件对给定的数据集进行基本的统计分析,同时提交分析报告。 2)数据预处理实验:本实验要求学生针对给定的高噪声数据、不完整数据(缺失值)等选择数据预处理方法进行实验,同时提交分析报告,要求:数据集的数据记录数不少于原数据集的90%;数据集各数据字段属性一致;数据集在特定数据字段上的分布尽可能均衡。 3)分类算法实验:本实验要求学生选择至少3种分类算法结合给定的实际问题与数据进行实验,分析算法性能,提出优化策略,解释实验结果。要求:分类正确率65%以上(in sample 和 Out of sample);进行必要的参数敏感性分析;选择5或者10折交叉验证方式,并分析各种分类率。 4)关联规则算法实验:本实验要求学生能够借助实验软件,根据实际问题分析Apriori及其变形算法性能,提出优化策略,解释实验结果。要求:原始数据集选择的实验比较分析;S,C选择实验分析;结果的解释性分析。 5)聚类算法实验:本实验要求学生首先对数据集的异常值进行处理,并分析属性间的相关度,在此基础上至少选择三种聚类算法(比如k-means、EM、DBSCAN和OPTICS等)对实际问题与数据进行实验,分析算法性能,提出优化策略,解释实验结果。要求:结合实际问题的背景分析实验结果的可解释性与合理性。 实验设计、调试 本课程实验强调问题导向,因而实验设计的基本出发点是问题,而问题以数据的形式出现,调试的过程实际上是选择和调校算法的过程,应严格按照各类算法基本原理进行设计与调试,具体见各个实验任务。 设计举例 分类算法实验: 本实验任务是根据FY Partovi,etc. Classifying inventory using an artificial neural network approach. Computers Industrial Engineering, 2002,41:389-404.这篇论文而展开的。论文中针对制药公司中的库存的ABC分类这种应用,对其收集到的两个制药公司的已经进行了分类的库存数据进行分析,得到了使用ANN这种分类方法来进行分类会取得比较好的准确性的结论。此次实验就是参照该论文,对其中介绍的ABC分类方法进行了解,并利用论文中提供的现实的数据,首先对论文中介绍的方法进行再次分类,以期望能够重现结果。另外再在此基础上,利用其他不同的分类方法来进行分类,尝试着进行方法、参数的寻优,期望能够找到一个同样好的、甚至更好的分类方法。 实验任务 设计课题 数据挖掘实验任务的设计思路是强调问题与数据,即将各种复杂表现形式的管理决策、预测和评价等问题抽象为特定数据挖掘任务类型,然后在此框架下,结合数据选择适当的数据挖掘算法,进行算法实验,并对结果进行分析与解释,在实验过程中,同时强调算法的优化。因此,所有实验任务都是基于上述思路进行设计的。 已知条件 (1)问题背景及其企业管理知识与理论; (2)丰富的数据; (3)实验软件及实验指导书; (4)必要的硬件和网络环境。 性能指标要求 因实验任务类型不同而不同,相见指导书中第3部分内容。 实验仪器设备 硬件:数据库服务器、计算机网络; 软件:数据库管理系统、SPSS和WEKA环境。 设计步骤与要求 分组:根据实验任务的背景、复杂程度以及估计的工作量,分组完成,建议每组的同学人数在1-2;组中每位同学应独立承担一部份分析与设计、程序设计; 查阅相关的教材,从理论上掌握相关的方法和流程; 问题定位:界定实验任务的问题类型,确定基本实验工作流程; 数据收集与预处理:完成数据集的收集,运用数据预处理方法进行整理; 算法选择:根据实验任务特征和数据特征,选择合适算法(集)拟定算法计算流程; 实验数据分析:根据算法计算结果分析实验结果数据,拟定算法优化工作流程; 算法性能分析与优化:按照拟定的算法优化工作流程,完成算法优化与分析

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档