- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘-WAKA
试验汇报
一、WEKA软件简介
在我所从事的证券行业中,存在着海量的信息和数据,不过这些数据平常知识发挥了一小部分的作用,其包括了大量的隐性的信息并不為所用,不过却可认為某些企业的决策和对客户的服务提供不小的价值。因此,我們可以通过某些数据采集、数据挖掘来获得潜在的有价值的信息。
数据挖掘就是通过度析存在于数据库里的数据来处理问題。在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的构造模式,进而挖掘出潜在的有用的信息。数据挖掘就是通过度析存在于数据库里的数据来处理问題。WEKA的出現让我們把数据挖掘无需编程既可轻松搞定。
WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA编写的,它的源代码可通过,并且限制在GBU通用公众证书的条件下公布,可以运行在所有的操作系统中。是一款免费的,非商业化的机器学习以及数据挖掘软件
WEKA作為一种公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。假如想自已实現数据挖掘算法的话,可以看一看WEKA的接口文档。在WEKA中集成自已的算法甚至借鉴它的措施自已实現可视化工具并不是件很困难的事情。
安装WEKA也十分简朴,首相要下载安装JDK环境,JDK在这个页面可以找到它的下载HYPERLINK。点击JDK6之后的Download按钮,转到下载页面。选择Accepct,过一会儿页面会刷新。我們需要的是这个WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB,点击它下载。也可以右键点击它上面的链接,在Flashget等工具中下载。安装它和一般软件没什么区别。不过中间会中断一下提醒你安装JRE,一并装上既可。之后就是安装WEKA软件,这个在网上诸多地方均有。同样简朴地按默认措施安装后既可使用。
点击启动运行WEKA软件后,我门发現WEKA存储数据的格式是ARFF(Attribute-Relation)文献,这是一种ASCII文本文献。我們如图1通过软件的Tools菜单进入ArffViewer可以在安装目录下查看软件自带的几种ARFF文献。
图1
图2
如图2,打开文献后选择data自目录下的任意一张表,我們都可以看到如图3所示的二维表格存储在如下的ARFF文献中。这也就是WEKA自带的“contact-lenses.arff”文献。这里我們要简介一下WEKA中的术語。表格里的一种横行称作一种实例(Instance),相称于记录学中的一种样本,或者数据库中的一条记录。竖行称作一种属性(Attrbute),相称于记录学中的一种变量,或者数据库中的一种字段。这样一种表格,或者叫数据集,在WEKA看来,展現了属性之间的一种关系(Relation)。图1中一共有22个实例,5个属性,关系名称為“contact-lenses”。
除了ARFF格式,WEKA还支持此外一种常見格式,CSV格式。CSV同样是一种二进制保留的文本格式,我們可以在WEKA中直接打开CSV格式的文献,并保留為ARFF格式。这样就給我提供了把常見的数据格式转换為ARFF格式的措施,如对于Excel文献,我們可以通过把每张表保留為CSV格式,进而保留為ARFF格式,与此同步,我們可以运用filter对数据进行对应的预处理。而对于Matlab格式的数据,我們可以通过命令csvwrite把数据转化成CSV格式的文献,进而转化為ARFF格式文献。对于海量数据,一般保留在数据库中,WEKA同步支持JDBC访问数据库。
图3
打开WEKA,首先出現一种命令行窗口。原认為要在这个命令行下写java語句呢,不过稍等一秒,WEKAGUIChooser的出現了。这是一种很简朴的窗体,提供四个按钮:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。SimpleCLI应当是一种使用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗模式下的数据挖掘工具;Experimenter和KnowledgeFlow的使用有待深入探索....
图4
Explorer
使用WEKA探索数据的环境。在这个环境中,WEKA提供了数据的预处理,
您可能关注的文档
- 2025年增值税核心要点与应试攻略.doc
- 2025年细胞膜渗透性研究实验报告与探索分析.doc
- 2025年初中政治核心知识点汇总与精炼解读.doc
- 2025年旅行社管理综合试题宝典与实战演练集锦.doc
- 2025年教育心理学核心考点解析与备考攻略.doc
- 2025年考研外科护理学精华题库及高频考点解析.docx
- 2025年教师资格认定全攻略必备条件与流程解析.doc
- 2025年实验报告撰写范例与技巧解析.doc
- 2025年必威体育精装版版学前教育心理学考试大纲与核心考点详析.doc
- 2025年教师资格证考试辨析题攻略与高频考点解析.doc
- 专题02+时事热点(精讲课件)2025年中考地理二轮复习讲练测(安徽专用).pptx
- 专题10+经济建设 2025年中考道德与法治二轮复习讲练测(广东专用).pptx
- 专题02+西游记【名著概览】+-+2025年中考语文必读名著演练.pptx
- 专题七+认识国家(课件)-【省心备考】2025年中考地理一轮复习优质课件.pptx
- 第22课《礼记》二则——《大道之行也》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 跨学科实践15:制作“龙骨水车”(课件)-2024-2025学年八年级物理下学期项目化课程案例.pptx
- 第13课_辽宋夏金元时期的对外交流(课件)2024-2025学年七年级历史下册同步教学课件.pptx
- 选择题专项讲解——综合类(课件)2025年初中道德与法治中考选择题练习.pptx
- 第21课《庄子》二则——《北冥有鱼》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 7.3+感受澳大利亚(第二课时)-2025学年七年级地理下册同步精品课堂(晋教版2024).pptx
文档评论(0)