hadoop配置文件含义

1.core-site.xml

<name>fs.trash.interval</name>

</property>

hadoop默认垃圾回收保存时间，分钟

2.mapreduce.input.linerecordreader.line.maxlength=100000 执行Mapreduce任务outofmemory，让Mapreduce一次读取10w条记录

3.在hive config中有一个

hive.stats.autogather=true

hive.stats.autogather：在insert overwrite命令时自动收集统计信息，默认开启true；好处就是执行select count立即会返回结果不会等待mr任务

4.dfs.block.size

修改hdfs块大小

（1）减轻了namenode的压力

原因是hadoop集群在启动的时候，datanode会上报自己的block的信息给namenode。namenode把这些信息放到内存中。那么如果块变大了，那么namenode的记录的信息相对减少，所以namenode就有更多的内存去做的别的事情，使得整个集群的性能增强。

（2）增大会不会带来负面相应。

因为这个可以灵活设置，所以这里不是问题。关键是什么时候，该如何设置。

如果对于数两级别为PB的话，建议可以block设置的大一些。

如果数据量相对较少，可以设置的小一些64M也未尝不可。

5.hive中Run as end user instead of Hive user

true

使用提交任务的用户去执行任务

相关阅读:
CSpinButtonCtrl控件的使用
JS基础语法
JS
层级,hover
Html&Css
定位
制作静态网页
查看trunk端口
配置vlan trunk
js日期的写法，获取girdviw的行数、提示信息、验证数量信息

原文地址：https://www.cnblogs.com/brownyangyang/p/9145797.html