• 大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)


    数据挖掘---推荐算法(Mahout工具)

    一、简介

    • Apache顶级项目(2010.4)
    • Hadoop上的开源机器学习库
    • 可伸缩扩展的
    • Java库
    • 推荐引擎(协同过滤)、聚类和分类

    二、机器学习介绍

    • 通常问题都归为这几类问题
    • 分类问题
    • 回归问题
    • 聚类问题
    • 推荐问题

    三、安装方法

    3.1 下载Mahout

    wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

    3.2 解压

    tar -zxvf  mahout-distribution-0.9.tar.gz

    四、配置环境变量

    4.1 配置mahout环境变量

    # set mahout environment
    export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9
    export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
    export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

    4.2 配置Mahout所需的Hadoop环境变量

    # set hadoop environment
    export HADOOP_HOME=/usr/local/src/hadoop-1.2.1
    export HADOOP_CONF_DIR=$HADOOP_HOME/conf
    export PATH=$PATH:$HADOOP_HOME/bin
    export HADOOP_HOME_WARN_SUPPRESS=not_null

    五、验证是否成功

    直接执行mahout命令

    支持算法列表

    六、准备数据

    数据格式:
    1,100001,5
    1,100002,3
    1,100003,4
    1,100004,3
    1,100005,3
    1,100007,4
    1,100008,1
    1,100009,5
    1,1000011,2

    七、训练

    INPUT="/movie_lens.data"
    TMP_DIR="/mahout_temp"
    OUTPUT="/cf_mahout_output"
    MAHOUT_CMD="/usr/local/src/mahout-distribution-0.9/bin/mahout“
    $MAHOUT_CMD itemsimilarity
    -i $INPUT
    -o $OUTPUT
    --maxSimilaritiesPerItem 1000
    --threshold 0.0000001
    --similarityClassname SIMILARITY_COSINE
    --tempDir $TMP_DIR

     八、输出结果

  • 相关阅读:
    sed 使用总结
    rgmanager 介绍
    linux nbd & qemu-nbd
    corosync基本使用
    svn 基本使用
    tornado 实践
    mysql mac启动
    postgresql
    django
    django
  • 原文地址:https://www.cnblogs.com/hackerer/p/11480119.html
Copyright © 2020-2023  润新知