SparkMLlib分类算法之逻辑回归算法

SparkMLlib分类算法之逻辑回归算法

（一），逻辑回归算法的概念（参考网址：http://blog.csdn.net/sinat_33761963/article/details/51693836）

　　　　逻辑回归与线性回归类似，但它不属于回归分析家族（主要为二分类），而属于分类家族，差异主要在于变量不同，因此其解法与生成曲线也不尽相同。逻辑回归是无监督学习的一个重要算法，对某些数据与事物的归属（分到哪个类别）及可能性（分到某一类别的概率）进行评估。

（二），SparkMLlib逻辑回归应用

1，数据集的选择：http://www.kaggle.com/c/stumbleupon/data 中的（train.txt和test.txt）

2，数据集描述：关于涉及网页中推荐的页面是短暂（短暂存在，很快就不流行了）还是长久（长时间流行）的分类

3，数据预处理及获取训练集和测试集

val orig_file=sc.textFile("train_nohead.tsv")
    //println(orig_file.first())
    val data_file=orig_file.map(_.split("	")).map{
      r =>
        val trimmed =r.map(_.replace(""",""))
        val lable=trimmed(r.length-1).toDouble
        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0
        else d.toDouble)
        LabeledPoint(lable,Vectors.dense(feature))
    }.randomSplit(Array(0.7,0.3),11L)
    val data_train=data_file(0)//训练集
    val data_test=data_file(1)//测试集

4，逻辑回归模型训练及模型评价

val model_log=new LogisticRegressionWithLBFGS().setNumClasses(2).run(data_train)
/*
有两种最优化算法可以求解逻辑回归问题并求出最优参数：mini-batch gradient descent(梯度下降法），L-BFGS法。我们更推荐使用L-BFGS，因为它能更快聚合,而且现在spark2.1.0已经放弃LogisticRegressionWithLSGD()模式了*/
/*性能评估：使用精确度，PR曲线，AOC曲线*/
 val predictionAndLabels=data_test.map(point =>
      (model_log.predict(point.features),point.label)
    )
    val metricsLG=new MulticlassMetrics(predictionAndLabels)//0.6079335793357934
val metrics=Seq(model_log).map{
      model =>
        val socreAndLabels=data_test.map {
          point => (model.predict(point.features), point.label)
        }
        val metrics=new BinaryClassificationMetrics(socreAndLabels)
        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())
    }
val allMetrics = metrics
    allMetrics.foreach{ case (m, pr, roc) =>
      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")
    }
/*LogisticRegressionModel, Area under PR: 73.1104%, Area under ROC: 60.4200%*/

5，模型优化

　　特征标准化处理

val orig_file=sc.textFile("train_nohead.tsv")
    //println(orig_file.first())
    val data_file=orig_file.map(_.split("	")).map{
      r =>
        val trimmed =r.map(_.replace(""",""))
        val lable=trimmed(r.length-1).toDouble
        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0
        else d.toDouble)
        LabeledPoint(lable,Vectors.dense(feature))
    }
   /*特征标准化优化*/
    val vectors=data_file.map(x =>x.features)
    val rows=new RowMatrix(vectors)
    println(rows.computeColumnSummaryStatistics().variance)//每列的方差
    val scaler=new StandardScaler(withMean=true,withStd=true).fit(vectors)//标准化
    val scaled_data=data_file.map(point => LabeledPoint(point.label,scaler.transform(point.features)))
        .randomSplit(Array(0.7,0.3),11L)
    val data_train=scaled_data(0)
    val data_test=scaled_data(1)
/*训练逻辑回归模型*/
    val model_log=new LogisticRegressionWithLBFGS().setNumClasses(2).run(data_train)
/*在使用模型做预测时，如何知道预测到底好不好呢？换句话说，应该知道怎么评估模型性能。
    通常在二分类中使用的评估方法包括：预测正确率和错误率、准确率和召回率、准确率  召回率
    曲线下方的面积、 ROC 曲线、 ROC 曲线下的面积和 F-Measure*/
    val predictionAndLabels=data_test.map(point =>
      (model_log.predict(point.features),point.label)
    )
    val metricsLG=new MulticlassMetrics(predictionAndLabels)//精确度：0.6236162361623616
val metrics=Seq(model_log).map{
      model =>
        val socreAndLabels=data_test.map {
          point => (model.predict(point.features), point.label)
        }
        val metrics=new BinaryClassificationMetrics(socreAndLabels)
        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())
    }
val allMetrics = metrics
    allMetrics.foreach{ case (m, pr, roc) =>
      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")
    }
/*LogisticRegressionModel, Area under PR: 74.1103%, Area under ROC: 62.0064%*/

View Code

6，总结

　　1，如何能提高更明显的精度。。。。。

　　2，对逻辑回归的认识还不够。。。。

相关阅读:
master线程的主循环,后台循环,刷新循环,暂停循环
 InnoDB的后台线程(IO线程,master线程,锁监控线程,错误监控线程)和内存(缓冲池,重做日志缓冲池,额外内存池)
MySQL的连接方式
 编写高质量的 Java 代码
 TProfiler
Copy-On-Write容器
 G1 垃圾收集器
 JAVA 虚拟机钩子
 Future和Promise
算法笔记_134:字符串编辑距离（Java）
原文地址：https://www.cnblogs.com/ksWorld/p/6882398.html