• EX: 这里是收集的面试题


    1.  mapper 分片  数量  解释

     PS :  这里面还没有进行reduce 之前的shuffer  , shuffer会把每个单词发送的不同的机器 ,

    假如有两个reduce , 那么相同颜色的都在一个节点上面 ,

    2.

                                         

     3.reduce 之前必须shuffer 

     这是在有两个reducer的情况下 , 得到的结果

                                                 

    这是总共只有一个reduce的情况下 , 生产环境中 , 很容易造成压力过载!

                                                                 

     2.创建分区表

    create  table uinfo(id STRING) partitioned by (month Int)Row Format Delimited Fields Terminated By '	'
    ------
    #导入数据
    load data local inpath '-数据-' into table trade partition(month=202005)

    分区表创建的时候使用 partitioned by  , 查询的时候用的 partition(  col= 201212)这样

    另外,分区表的分区值是个伪列,不存在表中 ,但是代表它的一个属性 , 数据存放在哪个分区中, 那么他就是哪个属性 , 和自己本身内容无关

    就比如把数据导入201208  和 201210 , 就算数据相同 , 他们的分区不一样 , 具有的月份属性也不一样

  • 相关阅读:
    supervisor启动错误解决(二)
    删除文件某行
    离线安装
    docker中/var/lib/docker目录迁移
    if else 使用
    Django views函数添加装饰器
    Netty4
    Fast DFS(二)
    Fast DFS(一)
    SpringBoot和app之间跨域问题
  • 原文地址:https://www.cnblogs.com/alpha-cat/p/12817131.html
Copyright © 2020-2023  润新知