• Mahout0.9安装与配置(完全分布式模式下运行)


    安装Mahout之前,一定要把hadoop装好,hadoop的安装方法可以参考我的前一篇随笔,我安装的是hadoop2.7.0,具体方法在此不做介绍。

    1.首先下载相应版本的Mahout:

    axel -n 10 http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

    2.解压:

    tar -zxvf  mahout-distribution-0.9.tar.gz

    3.将文件转移至安装好的hadoop下:

    mv mahout-distribution-0.9 /usr/local/hadoop

    4.配置环境变量:

    # set mahout environment
    export MAHOUT_HOME=/usr/local/hadoop/mahout-distribution-0.9
    export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
    export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

    5.编辑$MAHOUT_HOME/bin/mahout,将HADOOP_CONF_DIR设置为$HADOOP_HOME/conf

    HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

    6.运行

    在命令行输入bin/mahout,如果你看到以下信息就说明Mahout的hadoop模式已经配置好了。

    MAHOUT_LOCAL is not set; adding HADOOP_CONF_DIR to classpath. 
    Running on hadoop...

    7.启动hadoop

    8.下载测试数据

    axel http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

    9.创建测试目录testdata,并导入数据

    hadoop fs -mkdir testdata
    hadoop fs -put /usr/local/hadoop/mahout-distribution-0.9/synthetic_control.data testdata

    10.使用kmeans算法

    hadoop jar /usr/local/hadoop/mahout-distribution-0.9/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

    11.查看结果

    hadoop fs -ls output

    成功!

  • 相关阅读:
    破周三,前不着村后不着店的,只好学pandas了,你该这么学,No.9
    周一不睡觉,也要把pandas groupy 肝完,你该这么学,No.8
    大周末的不休息,继续学习pandas吧,pandas你该这么学,No.7
    链接
    音乐
    术语
    新闻
    我的文章分类
    我的代码规则
    Jenkins 访问特别慢,且不消耗服务器资源
  • 原文地址:https://www.cnblogs.com/ryuham/p/4611182.html
Copyright © 2020-2023  润新知