• 理解MapReduce操作


    1. 用Python编写WordCount程序并提交任务

    程序

    WordCount

    输入

    一个包含大量单词的文本文件

    输出

    文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

    1. 编写map函数,reduce函数
      #!/usr/bin/env python
      import sys
      for line in sys.stdin:
           line=line.strip()
           words=line.split()
           for word in words:
                print '%s	%s' % (word,1)
      #!/usr/bin/env python
      from operator import itemgetter
      import sys
      current_word=None
      current_count=0
      word=None
       
      for line in sys.stdin:
           line=line.strip()
           word,count=line.split('	',1)
           try:
                count=int(count)
           except ValueError:
                continue
           if current_word==word:
                current_count+=count
           else:
                if current_word:
                    print '%s	%s' % (current_word,current_count)
                current_count=count
                current_word=word
      if current_word==word:
           print '%s	%s' % (current_word,current_count)
    2. 将其权限作出相应修改
      chmod a+x /home/hadoop/wc/mapper.py
       
      chmod a+x /home/hadoop/wc/reducer.py

    3. 本机上测试运行代码

    4.放到HDFS上运行

    1. 将之前爬取的文本文件上传到hdfs上
    2. 用Hadoop Streaming命令提交任务

    5.查看运行结果

  • 相关阅读:
    Heartbeat
    HA集群基本概念详解
    crmsh语法
    corosync.conf
    安装cloudbase-init和qga批处理
    Oz代码梳理
    [转]LVS安装使用详解
    [转]LVS+Keepalived负载均衡配置
    Django REST framework之序列化组件以及源码分析+全局、局部Hook
    Django REST framework之解析器实例以及源码流程分析
  • 原文地址:https://www.cnblogs.com/CatalpaOvata132/p/9022025.html
Copyright © 2020-2023  润新知