• [MapReduce_add_2] MapReduce 实现年度最高气温统计



    0. 说明

      编写 MapReduce 程序实现年度最高气温统计


     1. 气温数据分析

      气温数据样例如下:

    0029029070999991901010106004+64333+023450FM-12+000599999V0202701N015919999999N0000001N9-00781+99999102001ADDGF108991999999999999999999
    0029029070999991901010113004+64333+023450FM-12+000599999V0202901N008219999999N0000001N9-00721+99999102001ADDGF104991999999999999999999
    0029029070999991901010120004+64333+023450FM-12+000599999V0209991C000019999999N0000001N9-00941+99999102001ADDGF108991999999999999999999
    0029029070999991901010206004+64333+023450FM-12+000599999V0201801N008219999999N0000001N9-00611+99999101831ADDGF108991999999999999999999
    0029029070999991901010213004+64333+023450FM-12+000599999V0201801N009819999999N0000001N9-00561+99999101761ADDGF108991999999999999999999

      对气温数据进行分析可以得出以下的结论
        1. 年份的索引为 15-19 ,以此作为 Key
        2. 气温的索引为 87-92 ,以此作为 Value

     

      【思路】

      在 Map 阶段将原始数据映射成满足要求的 K-V 对,在 Reduce 阶段对相同 Key 的值进行比较,得到最大值 


     2. 代码编写

       [2.1 MaxTempMapper.java]

    package hadoop.mr.maxtemp;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Mapper;
    
    import java.io.IOException;
    
    /**
     * Mapper 类
     */
    public class MaxTempMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            // 将 value 变为 String 格式
            String line = value.toString();
            // 获得年份
            String year = line.substring(15, 19);
            // 获得温度
            int temp = Integer.parseInt(line.substring(87, 92));
    
            // 存在脏数据 9999,所以要将其过滤
            if (temp != 9999) {
                // 输出年份与温度
                context.write(new Text(year), new IntWritable(temp));
            }
    
        }
    }

      [2.2 MaxTempReducer.java]

    package hadoop.mr.maxtemp;
    
    import org.apache.hadoop.io.DoubleWritable;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Reducer;
    
    import java.io.IOException;
    
    /**
     * Reducer 类
     */
    public class MaxTempReducer extends Reducer<Text, IntWritable, Text, DoubleWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            Integer max = Integer.MIN_VALUE;
    
            // 得到最大值
            for (IntWritable value : values) {
                max = Math.max(max, value.get());
            }
    
            // 输出年份与最大温度
            context.write(key, new DoubleWritable(max / 10.0));
        }
    }

      [2.3 MaxTempApp.java]

    package hadoop.mr.maxtemp;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.DoubleWritable;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    
    /**
     * max Temp APP
     */
    public class MaxTempApp {
        public static void main(String[] args) throws Exception {
            // 初始化配置文件
            Configuration conf = new Configuration();
    
            // 仅在本地开发时使用
            conf.set("fs.defaultFS", "file:///");
    
            // 初始化文件系统
            FileSystem fs = FileSystem.get(conf);
    
            // 通过配置文件初始化 job
            Job job = Job.getInstance(conf);
    
            // 设置 job 名称
            job.setJobName("max Temp");
    
            // job 入口函数类
            job.setJarByClass(MaxTempApp.class);
    
            // 设置 mapper 类
            job.setMapperClass(MaxTempMapper.class);
    
            // 设置 reducer 类
            job.setReducerClass(MaxTempReducer.class);
    
            // 设置 map 的输出 K-V 类型
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);
    
            // 设置 reduce 的输出 K-V 类型
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(DoubleWritable.class);
    
            // 新建输入输出路径
            Path pin = new Path("E:/file/temp");
            Path pout = new Path("E:/test/wc/out");
    
            // 打包后自定义输入输出路径
    //        Path pin = new Path(args[0]);
    //        Path pout = new Path(args[1]);
    
            // 设置输入路径和输出路径
            FileInputFormat.addInputPath(job, pin);
            FileOutputFormat.setOutputPath(job, pout);
    
            // 判断输出路径是否已经存在,若存在则删除
            if (fs.exists(pout)) {
                fs.delete(pout, true);
            }
    
            // 执行 job
            job.waitForCompletion(true);
        }
    }

     3. 测试 

      本地模式下运行代码的结果如下

       


    4. 部署到集群上

      【4.1 修改代码 MaxTempApp.java】

        

      【4.2 打包程序】

      

       

      【4.3 运行程序】

      开启 Hadoop 集群,然后将 temp 数据文件上传到 HDFS 中,过程略

      运行以下命令

    hadoop jar myhadoop-1.0-SNAPSHOT.jar hadoop.mr.maxtemp.MaxTempApp /testdata/temp /testdata/out

      【查看结果】

      命令行下可以看到结果,Web UI 查看 http://s101:8088

       


  • 相关阅读:
    Explain详解
    InnoDB缓存---InnoDB Buffer Pool
    多线程之---线程同步
    多线程之--等待与通知
    谈算法与数据结构的学习
    分布式系统理论
    算法与数据结构基础
    算法与数据结构基础
    算法与数据结构基础
    算法与数据结构基础
  • 原文地址:https://www.cnblogs.com/share23/p/9907977.html
Copyright © 2020-2023  润新知