大数据框架Hive优化方法 - 润新知

大数据框架Hive优化方法
常规调优手段
- Fetch抓取
- 本地模式
- JVM重用　　
  - 对于大量小文件，可开启JVM重用，即多个任务共用一个JVM而不用频繁开启和关闭
- 推测执行
- 严格模式（开启后Hive自动对某些操作做一定的限制，以免过低的查询效率）
- count distinct 用 group by替换
- 空key过滤（大表join大表）
- join的时候尽量将小表放大表左边（现版本Hive对其进行自动的优化。）
数据倾斜的解决
- 开启数据倾斜时均衡负载，同一个key分道不同的reduce处理，然后开启第二个MR根据与处理数据结果再按照groupbykey分不到reduce中完成最终的聚合操
- 合理设置map、reduce个数；小文件合并等常规MR优化
  - 增大map数：减少切片大小
  - 增大reduce个数
- 开启map端预先聚合，combine
- 小表存入内存，将reduce join转化为map join
相关阅读:
转：spring-session
转：SpringBoot项目如何进行打包部署
 事务的隔离级别
 获取打卡记录接口返回数据情况说明
 批注@SuppressWarnings 的作用
 mybatis-generator eclipse插件使用方法
 几种常见数据库的driverClassName和url
ssm 配置多个数据源
 常用正则表达式
 tomcat 配置成服务
原文地址：https://www.cnblogs.com/cun-yu/p/12762784.html

Copyright © 2020-2023 润新知