网站大量收购闲置独家精品文档,联系QQ:2885784924

SparkMLlib算法调用展示平台及其实现过程.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkMLlib算法调用展示平台及其实现过程要点

Spark MLlib算法调用展示平台及其实现过程 1. 软件版本: IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机) 2. 工程下载及部署: Scala封装Spark算法工程:/fansy1990/Spark_MLlib_Algorithm_1.6.0.git ; 调用Spark算法工程:/fansy1990/Spark_MLlib_1.6.0_.git ; 部署(主要针对Spark_MLlib_1.6.0工程): 1)配置好perties中相应用户名密码/数据库等参数; 2)第一次启动tomcat,修改hibernate.cfg.xml文件中的hibernate.hbm2ddl.auto值为create,第二次启动修改为update; 3) 打开集群参数页面,点击初始化,初始化集群参数,如果集群参数和当前集群不匹配,那么需要做相应修改; 暂时考虑使用配置文件的方式来配置集群参数,如果要调整为数据库配置,那么修改Utisl.dbOrFile参数即可;即,暂时只需修改perties文件; 4)拷贝Spark_MLlib_Algorithm_1.6.0工程生成的算法到到3)中spark.jar所在路径; 5)拷贝集群中的yarn-site.xml到3)中spark.files所在路径; 6)拷贝spark-assembly-1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0.jar到3)中spark.yarn.jar所在路径; 3. 工程实现原理: 3.1 Scala封装Spark算法工程: 3.1.1 工程目录 1. 工程目录如下所示: 其中,data目录为所有的测试数据所在目录,这里针对不同的算法建立了不同的目录,主要有5类:分类与回归/聚类/协同过滤/降维/频繁项集挖掘; main/scala里面就是所有封装Spark源码中的代码; test/scala里面对应每个封装代码的测试; 2. 工程采用Maven构建,直接根据pom文件加载对应依赖; 3. 该工程需要经过maven打包,把打包好的jar包放到CDH的虚拟机中的HDFS上某一固定目录,方便Spark算法调用工程调用(具体目录下文有说); 3.1.2 单个算法实现(封装/测试),比如针对逻辑回归 1. 针对逻辑回归,其封装代码如下所示: 代码清单3-1 逻辑回归算法封装(Scala) [plain] view plain copy 在CODE上查看代码片派生到我的代码片 package com.fz.classification import com.fz.util.Utils import org.apache.spark.mllib.classification.{LogisticRegressionWithSGD, LogisticRegressionWithLBFGS} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.{SparkConf, SparkContext} /** * 逻辑回归封装算法 * Labels used in Logistic Regression should be {0, 1, ..., k - 1} for k classes multi-label classification problem * 输入参数: * testOrNot : 是否是测试,正常情况设置为false * input:输出数据; * minPartitions : 输入数据最小partition个数 * output:输出路径 * targetIndex:目标列所在下标,从1开始 * splitter:数据分隔符; * method:使用逻辑回归算法:SGD or LBFGS * hasIntercept : 是否具有截距 * numClasses: 目标列类别个数; * Created by fanzhe on 2016/12/19. */ object LogisticRegression { def main (args: Array[Strin

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档