• hadoop配置文件含义


    1.core-site.xml
        <property>
          <name>fs.trash.interval</name>
          <value>360</value>
        </property>
     
    hadoop默认垃圾回收保存时间,分钟
     
     
    2.mapreduce.input.linerecordreader.line.maxlength=100000  执行Mapreduce任务outofmemory,让Mapreduce一次读取10w条记录
     
     
    3.在hive config中有一个
    hive.stats.autogather=true     
    hive.stats.autogather:在insert overwrite命令时自动收集统计信息,默认开启true;好处就是执行select count立即会返回结果不会等待mr任务
     
     
    4.dfs.block.size
    修改hdfs块大小
    (1)减轻了namenode的压力
    原因是hadoop集群在启动的时候,datanode会上报自己的block的信息给namenode。namenode把这些信息放到内存中。那么如果块变大了,那么namenode的记录的信息相对减少,所以namenode就有更多的内存去做的别的事情,使得整个集群的性能增强。
    (2)增大会不会带来负面相应。
    因为这个可以灵活设置,所以这里不是问题。关键是什么时候,该如何设置。
    如果对于数两级别为PB的话,建议可以block设置的大一些。
    如果数据量相对较少,可以设置的小一些64M也未尝不可。
     
    5.hive中Run as end user instead of Hive user
    true
    使用提交任务的用户去执行任务 
  • 相关阅读:
    CSpinButtonCtrl控件的使用
    JS基础语法
    JS
    层级,hover
    Html&Css
    定位
    制作静态网页
    查看trunk端口
    配置vlan trunk
    js日期的写法,获取girdviw的行数、提示信息、验证数量信息
  • 原文地址:https://www.cnblogs.com/brownyangyang/p/9145797.html
Copyright © 2020-2023  润新知