- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Linux系统与大数据应用
10大数据应用与案例第章
本章内容10.1Mahout数据挖掘10.2Hadoop应用案例:Worldcount词频统计案例10.3Spark应用案例:spark进行电商数据检索10.4本章小结
10.1Mahout数据挖掘ApacheMahout是一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在Mahout的最近版本中还加入了对ApacheHadoop的支持,使这些算法可以更高效的运行在云计算环境中。
Mahout是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。一、Mahout安装1、下载Mahout/dist/mahout/2、解压(如图10-1)tar-zxvfmahout-distribution-0.9.tar.gz10.1.1Mahout安装和配置
10.1.1Mahout安装和配置图10-1解压
3、配置环境变量(1)配置Mahout环境变量(如图10-2)#setmahoutenvironmentexportMAHOUT_HOME=/user/mahoutexportMAHOUT_CONF_DIR=$MAHOUT_HOME/confexportPATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH图10-2Mahout环境变量10.1.1Mahout安装和配置
(2)配置Mahout所需的Hadoop环境变量#sethadoopenvironmentexportHADOOP_HOME=/user/hadoopexportHADOOP_CONF_DIR=$HADOOP_HOME/confexportPATH=$PATH:$HADOOP_HOME/binexportHADOOP_HOME_WARN_SUPPRESS=not_null下图10-3,是在实例中的环境配置:图10-3Hadoop环境变量10.1.1Mahout安装和配置
4、验证运行mahout,如果出现以下结果说明配置正确。图10-4验证10.1.1Mahout安装和配置
10.1.2KMeans算法和canopy算法一、kMeans算法KMEANS算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。1、处理流程(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2)。
10.1.2KMeans算法和canopy算法1、实现方法k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。算法的时间复杂度上界为O(n*k*t),其中t是迭代次数。
10.1.2KMeans算法和canopy算法k-means算法是一种基于样本间相似性度量的间接聚类方法,属于非监督学习方法。此算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。此算法首先随机选择k个对象,每个对象代表一个聚类的质心。对于其余的
您可能关注的文档
- Linux系统与大数据应用 课件 第1章 Linux系统概述.ppt
- Linux系统与大数据应用 课件 第2章 Hadoop平台常用的Linux命令.ppt
- Linux系统与大数据应用 课件 第3章 Linux系统用户与组管理.ppt
- Linux系统与大数据应用 课件 第4章 Linux系统编辑器和软件安装.ppt
- Linux系统与大数据应用 课件 第5章 Linux系统网络及其服务配置.ppt
- Linux系统与大数据应用 课件 第6章 大数据挖掘的shell基础.ppt
- Linux系统与大数据应用 课件 第7章 Linux系统下的Python基础.ppt
- Linux系统与大数据应用 课件 第8章 大数据开发平台.ppt
- Linux系统与大数据应用 课件 第9章 大数据应用开发工具.ppt
- 跨境电商数据分析与应用题库(AB卷) .docx
最近下载
- (高清版)BT 44109-2024 信息技术 大数据 数据治理实施指南.pdf VIP
- 《麦子》-2021年高考现代文阅读文学类题目精准解析(word版).docx
- 1 小蝌蚪找妈妈 课件(共18张PPT).pptx VIP
- 预应力管桩计算书-桩身稳定计算.xls
- 2023-2024学年北京丰台区八年级初二(上)期末数学试卷及答案.pdf
- 一种柔性相变蓄冷材料及其制备方法.pdf VIP
- 班主任工作总结班主任工作总结.docx VIP
- 管桩计算书三.xls VIP
- 以协同创新为引领建构高校地方政府中小学三位一体的教师教育新机制.pdf VIP
- 2023-2024学年部编版(五四制)一年级上册期末测试语文试卷(名校二)优质.pdf VIP
文档评论(0)