- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《商业数据挖掘》实验指导书2012年2月1、实验目的及要求本课程实验.doc
PAGE \* MERGEFORMAT 4
《商业数据挖掘》实验指导书
2012年2月
实验目的及要求
本课程实验目的是在数据挖掘理论学习的基础上,将所学应用到实践中,检验理论学习的质量,提高知识运用能力。实验软件为SPSS和WEKA,数据集由教师提供。要求学生系统掌握数据挖掘的基本概念、原理和应用过程,通过课程实验,提高学生数据挖掘技术的认识,熟悉基本工具应用,并掌握设计和开发数据挖掘算法和系统的初步能力。
实验基本原理与功能
本课程实验属于借助实验软件的基本功能,结合特定管理问题背景,针对围绕特定问题所收集的数据,选择适当的数据挖掘算法进行数据分析,并解释数据挖掘结果,同时完成有关算法性能分析和优化工作。
实验主要技术指标
实验的技术指标依实验任务的不同而不同,本实验总共设计五个基本实验任务,它们的技术指标如下:
1)数据基本统计分析:本实验要求学生运用SPSS软件对给定的数据集进行基本的统计分析,同时提交分析报告。
2)数据预处理实验:本实验要求学生针对给定的高噪声数据、不完整数据(缺失值)等选择数据预处理方法进行实验,同时提交分析报告,要求:数据集的数据记录数不少于原数据集的90%;数据集各数据字段属性一致;数据集在特定数据字段上的分布尽可能均衡。
3)分类算法实验:本实验要求学生选择至少3种分类算法结合给定的实际问题与数据进行实验,分析算法性能,提出优化策略,解释实验结果。要求:分类正确率65%以上(in sample 和 Out of sample);进行必要的参数敏感性分析;选择5或者10折交叉验证方式,并分析各种分类率。
4)关联规则算法实验:本实验要求学生能够借助实验软件,根据实际问题分析Apriori及其变形算法性能,提出优化策略,解释实验结果。要求:原始数据集选择的实验比较分析;S,C选择实验分析;结果的解释性分析。
5)聚类算法实验:本实验要求学生首先对数据集的异常值进行处理,并分析属性间的相关度,在此基础上至少选择三种聚类算法(比如k-means、EM、DBSCAN和OPTICS等)对实际问题与数据进行实验,分析算法性能,提出优化策略,解释实验结果。要求:结合实际问题的背景分析实验结果的可解释性与合理性。
实验设计、调试
本课程实验强调问题导向,因而实验设计的基本出发点是问题,而问题以数据的形式出现,调试的过程实际上是选择和调校算法的过程,应严格按照各类算法基本原理进行设计与调试,具体见各个实验任务。
设计举例
分类算法实验:
本实验任务是根据FY Partovi,etc. Classifying inventory using an artificial neural network approach. Computers Industrial Engineering, 2002,41:389-404.这篇论文而展开的。论文中针对制药公司中的库存的ABC分类这种应用,对其收集到的两个制药公司的已经进行了分类的库存数据进行分析,得到了使用ANN这种分类方法来进行分类会取得比较好的准确性的结论。此次实验就是参照该论文,对其中介绍的ABC分类方法进行了解,并利用论文中提供的现实的数据,首先对论文中介绍的方法进行再次分类,以期望能够重现结果。另外再在此基础上,利用其他不同的分类方法来进行分类,尝试着进行方法、参数的寻优,期望能够找到一个同样好的、甚至更好的分类方法。
实验任务
设计课题
数据挖掘实验任务的设计思路是强调问题与数据,即将各种复杂表现形式的管理决策、预测和评价等问题抽象为特定数据挖掘任务类型,然后在此框架下,结合数据选择适当的数据挖掘算法,进行算法实验,并对结果进行分析与解释,在实验过程中,同时强调算法的优化。因此,所有实验任务都是基于上述思路进行设计的。
已知条件
(1)问题背景及其企业管理知识与理论;
(2)丰富的数据;
(3)实验软件及实验指导书;
(4)必要的硬件和网络环境。
性能指标要求
因实验任务类型不同而不同,相见指导书中第3部分内容。
实验仪器设备
硬件:数据库服务器、计算机网络;
软件:数据库管理系统、SPSS和WEKA环境。
设计步骤与要求
分组:根据实验任务的背景、复杂程度以及估计的工作量,分组完成,建议每组的同学人数在1-2;组中每位同学应独立承担一部份分析与设计、程序设计;
查阅相关的教材,从理论上掌握相关的方法和流程;
问题定位:界定实验任务的问题类型,确定基本实验工作流程;
数据收集与预处理:完成数据集的收集,运用数据预处理方法进行整理;
算法选择:根据实验任务特征和数据特征,选择合适算法(集)拟定算法计算流程;
实验数据分析:根据算法计算结果分析实验结果数据,拟定算法优化工作流程;
算法性能分析与优化:按照拟定的算法优化工作流程,完成算法优化与分析
文档评论(0)