• MapReduce模型


    MapReduce对于大数据来说就是一个特别简单的青铜时代,现在我们可能用到的并不多,但是还要学一些,MapReduce用来处理分布式并行计算

    对为什么MapReduce被淘汰想了解一些的可以看以下这个    mapreduce为什么被淘汰了?

    MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。

    简单说MapReduce就是Map   和   Reduce  。  Map就是吧东西分开    Reduce就是把东西合起来 。

    拿武侠小说打个比喻,一个人学会一项技能Map,这个技能能够将自己分成无数份,这无数份自己去分开去世界各地学习知识,最后在一个时间节点,所有的分身再通过Reduce技能将每个自己进行融合,获取知识

    MapReduce 拥有两个阶段 ,可以理解为这样一个过程,也就是键值对转化的过程(<K1,V1>  -> (map)  <K2,V2>->(reduce)<K3,V3>)(输入通过TextInputForma进行处理,把每一行转换成键值对)

    经典案例一:词频统计

    (第一次的时候我们也做过一个词频统计,就是108个爸爸和1个儿子的故事,看看这次的统计与上次的词频统计有啥相同有啥不同)

    流程就是那么个流程   就上面那个  

    map对单词进行切割(从源数据文件中逐行读取数据,然后将每一行数据切分成单词,再将单词构造成键值对,最后把键值对发送给reduce) 

    reduce在将相同的合并(reduce接收键值对,将相同键值汇聚,同时对累加求和,再将键值对输出到HDFS文件中)

    这个0 12 24 是偏移量

     1.首先在eclipse建一个maven文件(不会的看这个配置   新建maven文件

    2.建完maven文件之后当然是写配置文件啦,前面还是和上一个项目一样,不一样的地方是这次我们要打成jar包,所以在后面追加了一些配置代码(注意注释代码不是用//,而是用的<!---->)

    (看不懂pom文件中标签啥意思?    可以看看这位大佬的解释   Maven-pom-configuration    还可以看看这个加深理解打包    maven打包详情)、

    pom.xml代码详情   (在下面标红的地方是下面我们要建的类中的一个,驱动类)(junit是单元测试的jar包)

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
      <modelVersion>4.0.0</modelVersion>
      <groupId>cn.longshisan</groupId>
      <artifactId>hadoop-wordcount</artifactId>
      <version>0.0.1-SNAPSHOT</version>
      <dependencies>
          <dependency>
              <groupId>org.apache.hadoop</groupId>
              <artifactId>hadoop-common</artifactId>
              <version>2.7.4</version>
          </dependency>
          <dependency>
              <groupId>org.apache.hadoop</groupId>
              <artifactId>hadoop-hdfs</artifactId>
              <version>2.7.4</version>
          </dependency>
          <dependency>
              <groupId>org.apache.hadoop</groupId>
              <artifactId>hadoop-client</artifactId>
              <version>2.7.4</version>
          </dependency>
          <dependency>
              <groupId>junit</groupId>
              <artifactId>junit</artifactId>
              <version>RELEASE</version>
          </dependency>
      </dependencies>
     
      <build>
      <!-- 配置打包名称  -->
          <finalName>hadoop-longshisan-wordcount</finalName>
          <plugins>
              <plugin>
                  <groupId>org.apache.maven.plugins</groupId>
                  <artifactId>maven-jar-plugin</artifactId>
                  <version>2.4</version>
                  <configuration>
                      <archive>
                          <manifest>
                              <addClasspath>true</addClasspath>
                              <classpathPrefix>lib/</classpathPrefix>
                              <mainClass>cn.longshisan.hadoop.wordcount.Run</mainClass>
                          </manifest>
                      </archive>
                  </configuration>
              </plugin>
              
              <!-- 配置依赖包 -->
              <plugin>
                  <groupId>org.apache.maven.plugins</groupId>
                  <artifactId>maven-compiler-plugin</artifactId>
                  <version>3.0</version>
                  <configuration>
                      <source>1.8</source>
                      <target>1.8</target>
                      <encoding>UTF-8</encoding>
                      <verbal>true</verbal>
                  </configuration>
              </plugin>    
          </plugins>
      </build>
     
    </project>

     

     

     注:看了一个打包的的解释

    3.接下来我们要写一个mapper类,这个类继承Mapper这个类,把它泛型具体化一下

    建立一个

     

    接下来按shift+alt+s  选择这个

     

    选择map方法

     输入:

    package cn.longshisan.hadoop.wordcount;

    import java.io.IOException;

    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Mapper;

    public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
                throws IOException, InterruptedException {
            String line = value.toString();
            String[] words = line.split(" ");
            for(String word: words) {
                context.write(new Text(word),new IntWritable(1));
            }
        }

    }

    对15行代码进行解释:创建一个line的string量,来将value的值进行string化

    对16行代码进行解释:建立一个string数组,来保存将line通过空格区分的切片的单词

    对17行代码进行解释:将words中切片获得单词一个一个拿出来

    对18行代码进行解释:将获得的单词用键值对的方式发给reduce(例如这样:<hello,1>)

     4.接下来我们要写一个reduce类,这个类继承Reduce这个类,把它泛型具体化一下(具体操作同Map,不再截图)(这个和上面的逻辑挺重要,建议自己打出来)

     

     5.接下来我们要写一个Run类,这个类要把那个是mapper,那个是reducer,啥是啥,通过job对象,提交给集群,让集群去运行(也挺简单易懂的吧)

    前两句的意思是获取配置信息或者Job对象实例,之后给这个实例设置运行类,Map类,Reduce类,对于前面,告诉啥是啥,下面四行是输入输出,再下面两行是输入文件和输出文件的路径设置,最下面是调用函数执行Job

     6.将它打成jar包

     

     7.jar包都有了,剩下的操作就和第一次一样了,先把jar包传到software下用Xshell

     

     如果wordcount下有output文件夹,记得删掉

     

     我们再去data下建立一个words02.txt,再把这个文件放在Hadoop的input下,这样就有俩txt文件了,我们再运行一下jar包

     

     再到刚才的jar包路径下就行运行(吐槽一下,这个过程慢了,甚至使我以为失败了。记得关防火墙)

    效果:

     

    终于结束了!!!

  • 相关阅读:
    HTML 常见标签part1
    HTML 初始
    jenkins远程执行脚本不退出
    jenkins 持续集成工具安装
    jenkins 杀掉衍生进程解决办法
    日志分割工具-crononlog
    可视化库 pygal 生成png中文乱码
    可视化库 pygal 无法保存成本地文件
    一个很好用的ORM库--peewee
    3 种进度条 -- 记录
  • 原文地址:https://www.cnblogs.com/longshisan/p/14888144.html
Copyright © 2020-2023  润新知