• 实验 7 Spark 机器学习库 MLlib 编程实践


    一、实验目的
    (1)通过实验掌握基本的 MLLib 编程方法;
    (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和
    预测等。
    二、实验平台
    操作系统:Ubuntu16.04
    JDK 版本:1.7 或以上版本
    Spark 版本:2.1.0
    数据集:下载 Adult 数据集(http://archive.ics.uci.edu/ml/datasets/Adult),该数据集也可以
    直接到本教程官网的“下载专区”的“数据集”中下载。数据从美国 1994 年人口普查数据
    库抽取而来,可用来预测居民收入是否超过 50K$/year。该数据集类变量为年收入是否超过
    50k$,属性变量包含年龄、工种、学历、职业、人种等重要信息,值得一提的是,14 个属
    性变量中有 7 个类别型变量。
    三、实验内容和要求
    1.数据导入
    从文件中导入数据,并转化为 DataFrame。
    2.进行主成分分析(PCA)
    对 6 个连续型的数值型变量进行主成分分析。PCA(主成分分析)是通过正交变换把一
    组相关变量的观测值转化成一组线性无关的变量值,即主成分的一种方法。PCA 通过使用
    主成分把特征向量投影到低维空间,实现对特征向量的降维。请通过 setK()方法将主成分数
    量设置为 3,把连续型的特征向量转化成一个 3 维的主成分。
    3.训练分类模型并预测居民收入
    在主成分分析的基础上,采用逻辑斯蒂回归,或者决策树模型预测居民收入是否超过
    50K;对 Test 数据集进行验证。
    4.超参数调优
    利用 CrossValidator 确定最优的参数,包括最优主成分 PCA 的维数、分类器自身的参数
    等。
  • 相关阅读:
    OpenCV使用边缘提取、腐蚀、轮廓进行车牌定位
    How To Move Or Rebuild A Lob Partition
    Hadoop入门进阶步步高(三)-配置Hadoop
    [学习笔记]整体DP
    leetcode404
    leetcode349
    leetcode383
    leetcode453
    leetcode455
    leetcode167
  • 原文地址:https://www.cnblogs.com/1234yyf/p/14349249.html
Copyright © 2020-2023  润新知