数据挖掘实验八对比不同算法优劣.pdfVIP

下载本文档

0
0
约2.97千字
约 6页
2024-12-19 发布于北京
举报
版权申诉

数据挖掘实验八对比不同算法优劣.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘实验八：对比不同算法优劣

嵌入式一班20157730143

一、数据预处理

1）通用数据处理

Pclass（几等舱）和survived（是否存活）在使用csv文件转换成arff文件时，默认类

型为numeric数据类型，应改为normal类型才可以实验。

将train和test中的ID等不需要的信息删去，并保存。探究发现ticket（票ID）和cabin

（所在舱的编号）对实际数据影响不大，应属于无用的信息。但应任务书要求，仍保留了下

来，仅在神经网络训练和NaïveBayes方法训练中移除了这两类信息。

ticket（票ID）和cabin（所在舱的编号）的对应属性应为string字符串类型，但实验中

发现，如果将其属性改为字符串类型，影响部分实验的进行，所以仍将其保留为normal类

型。

为保证ticket（票ID）和cabin（所在舱的编号）的normal类型具有全部数据，应在

实验前将二者合并，然后再分开成两个文件，以保证实验能够正常进行。

经处理，实验用的train文件和test文件的arff格式表头为：

2）特殊数据处理

在神经网络训练中，为了降低训练时间，删除了影响不大的ticket（票ID）和cabin（所

在舱的编号）属性。

在NaïveBayes方法训练中，要求训练数据和测试数据不能含有未知属性，因此移除

了除survived（是否存活）外，所有包含?（未知属性）的条目。并且将survived（是否存

活）的normal类型改为了numeric数据类型，其得到的结果为一个0-1之间的小数。

二、算法对比分析

1）决策树C4.5（J48）算法

C4.5算法的优点是：产生的分类规则易于理解，准确率高。

缺点是：

在构造过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效；

C4.5算法只适合于能够驻留内存的数据集，当训练集大得无法在内存容纳时，程序无

法运行。

本次测试中，训练集正确率为77.4%。

2）关联规则Apriori算法

Apriori算法的缺点是：

在每一步产生项目集时循环产生的组合过多,没有排除不应该参与组合的元素;

每次计算项集的支持度时,都对数据库中的全部记录进行了一遍扫描比较,需要很大的

I/O负载。

3）k-means算法

k-means算法的优点是：该算法适用于对样本容量比较大的类域进行自动分类。

缺点是：

K值需要预先设定，而不能自适应；

当样本不平衡时，如一个类的样本容量很大，二其他类样本容量很小，有可能导致当输

入一个新样本时，该样本的K个邻居

您可能关注的文档

文档评论（0）

guchengyong + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据挖掘实验八对比不同算法优劣.pdfVIP