• Mac OS Hadoop Mahout安装


    Mac OS Hadoop Mahout安装

    1. 下载Hadoop,Mahout:

      可以直接从labs.renren.com/apache-mirror/hadoop和labs.renren.com/apache-mirror/mahout下载

    2. 配置Hadoop配置文件:

      (1) core-site.xml:

    <?xml version="1.0"?>  
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
      
    <!-- Put site-specific property overrides in this file. -->  
      
    <configuration>  
        <property>  
            <name>fs.default.name</name>  
            <value>hdfs://localhost:9000/</value>  
        </property>  
    </configuration>  

      (2) mapred-site.xml

    <?xml version="1.0"?>  
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
      
    <!-- Put site-specific property overrides in this file. -->  
      
    <configuration>  
      <property>  
        <name>mapred.job.tracker</name>  
        <value>localhost:9001</value>  
      </property>  
    </configuration>  

      (3) hdfs-site.xml

    <?xml version="1.0"?>  
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
      
    <!-- Put site-specific property overrides in this file. -->  
      
    <configuration>  
      <property>  
        <name>dfs.replication</name>  
        <value>1</value>  
      </property>  
    </configuration>  

      (4) 在 hadoop-env.sh文件末尾加入以下配置信息:

    export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home 
    export HADOOP_INSTALL=/Users/alex/Documents/DevRes/hadoop-0.21.0 
    export PATH=$PATH:$HADOOP_INSTALL/bin 

    3. 配置SSH

      在系统偏好设置->共享里勾选'远程登录'选项

      配置无密钥登陆:

      (1) 生成密钥(公钥):

    ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 

      ssh-keygen代表生成密钥;-t表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件

      (2) 把公钥加入认证文件中:

    cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 

      设置完成后用SSH登陆本机就不会要求输入密码

    4. 运行Hadoop:

      格式化:

    bin/hadoop namenode -format

      启动所有进程:

    bin/start-all.sh

      如果报错:

    Unable to load realm info from SCDynamicStore 

      则在hadoop-env.sh文件末尾加入:

    export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk" 

    5. 测试WordCount

      首先生成输入文件input.txt:

    1 hello world
    2 hello hadoop

      在HDFS下创建目录input:

    bin/hadoop fs -mkdir input

      将输入文件放入该目录中:

    bin/hadoop fs -put input.txt input

      执行Hadoop自带的example.jar中的WordCount:

    bin/hadoop jar hadoop-version-example.jar wordcount input output

      运行结果会放入output文件夹中,显示该文件夹中的信息:

    bin/hadoop fs -ls output

      会显示三个文件:_SUCCESS,_logs,part-r-00000,真正的结果存放在part-r-00000中:

    bin/hadoop fs -cat output/part-r-00000

      最终的结果为:

    hadoop    1
    hello    2
    world    1

    6. 配置Mahout:

      在/etc/profile文件末尾加入以下配置信息

    export=JAVA_HOME/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home 
    export MAHOUT_HOME=/path/to/mahout

      执行bin/mahout --help,如果有帮助信息则说明安装成功

    7. 在Eclipse中配置Hadoop和Mahout

      (1) 配置Hadoop和在别的OS下配置Hadoop一样,都是将Hadoop的Eclipse-plugin的jar包导入Eclipse的plugin文件夹,然后在Eclipse的preference->Hadoop Map/Reduce下配置Hadoop的安装路径

      (2) 配置好Hadoop后,新建一个Map/Reduce工程,然后将mahout目录下的core,core-job,math,util四个jar包加入到该工程的Build Path中即可

    参考文献:

      [1]  Mac OS下安装伪分布式Hadoop

      [2]  Mac OS下安装伪分布式Hadoop及Eclipse插件

      [3]  配置SSH免密钥登陆

      [4]  Unable to load realm info from SCDynamicStore错误解决

  • 相关阅读:
    2019年上半年收集到的人工智能深度学习方向干货文章
    2019年上半年收集到的人工智能自然语言处理方向干货文章
    2019年上半年收集到的人工智能图神经网络干货文章
    2019年上半年收集到的人工智能自动驾驶方向干货文章
    SAP 不支持交货单中同一个物料多个行项目HU与序列号组合发货场景
    SAP S4HANA 使用BP创建供应商报错
    yum/dnf/rpm 等 查看rpm 包安装路径 (fedora 中 pygtk 包内容安装到哪里了)
    apache 允许 访问软链接 ( Apache won't follow symlinks (403 Forbidden) )
    fedora 开启 apache 并 开启目录浏览模式
    如何在 windows server 2008 上面 挂载NFS
  • 原文地址:https://www.cnblogs.com/kemaswill/p/2784896.html
Copyright © 2020-2023  润新知