- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkMLlib算法调用展示平台及其实现过程要点
Spark MLlib算法调用展示平台及其实现过程
1. 软件版本:
IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机)
2. 工程下载及部署:
Scala封装Spark算法工程:/fansy1990/Spark_MLlib_Algorithm_1.6.0.git ;
调用Spark算法工程:/fansy1990/Spark_MLlib_1.6.0_.git ;
部署(主要针对Spark_MLlib_1.6.0工程):
1)配置好perties中相应用户名密码/数据库等参数;
2)第一次启动tomcat,修改hibernate.cfg.xml文件中的hibernate.hbm2ddl.auto值为create,第二次启动修改为update;
3) 打开集群参数页面,点击初始化,初始化集群参数,如果集群参数和当前集群不匹配,那么需要做相应修改;
暂时考虑使用配置文件的方式来配置集群参数,如果要调整为数据库配置,那么修改Utisl.dbOrFile参数即可;即,暂时只需修改perties文件;
4)拷贝Spark_MLlib_Algorithm_1.6.0工程生成的算法到到3)中spark.jar所在路径;
5)拷贝集群中的yarn-site.xml到3)中spark.files所在路径;
6)拷贝spark-assembly-1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0.jar到3)中spark.yarn.jar所在路径;
3. 工程实现原理:
3.1 Scala封装Spark算法工程:
3.1.1 工程目录
1. 工程目录如下所示:
其中,data目录为所有的测试数据所在目录,这里针对不同的算法建立了不同的目录,主要有5类:分类与回归/聚类/协同过滤/降维/频繁项集挖掘;
main/scala里面就是所有封装Spark源码中的代码;
test/scala里面对应每个封装代码的测试;
2. 工程采用Maven构建,直接根据pom文件加载对应依赖;
3. 该工程需要经过maven打包,把打包好的jar包放到CDH的虚拟机中的HDFS上某一固定目录,方便Spark算法调用工程调用(具体目录下文有说);
3.1.2 单个算法实现(封装/测试),比如针对逻辑回归
1. 针对逻辑回归,其封装代码如下所示:
代码清单3-1 逻辑回归算法封装(Scala)
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
package com.fz.classification
import com.fz.util.Utils
import org.apache.spark.mllib.classification.{LogisticRegressionWithSGD, LogisticRegressionWithLBFGS}
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkConf, SparkContext}
/**
* 逻辑回归封装算法
* Labels used in Logistic Regression should be {0, 1, ..., k - 1} for k classes multi-label classification problem
* 输入参数:
* testOrNot : 是否是测试,正常情况设置为false
* input:输出数据;
* minPartitions : 输入数据最小partition个数
* output:输出路径
* targetIndex:目标列所在下标,从1开始
* splitter:数据分隔符;
* method:使用逻辑回归算法:SGD or LBFGS
* hasIntercept : 是否具有截距
* numClasses: 目标列类别个数;
* Created by fanzhe on 2016/12/19.
*/
object LogisticRegression {
def main (args: Array[Strin
文档评论(0)