hive引擎的选择：tez和spark - 润新知

hive引擎的选择：tez和spark

背景

mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。

选择

tez

使用有向无环图。内存式计算。

spark

可以同时作为批式和流式的处理引擎，减少学习成本。

问题&&不便

tez：

在hive sql中使用了union 或 join操作

tez会将任务切分,每个小任务，创建一个文件文件夹，如下：

这就会造成一个非常严重的问题，假如这张表的下文，使用这张表没有用tez，而是使用spark或者mr，

这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束，其他人使用同一种引擎，

所以tez在使用中抛弃。我们最中选择了spark引擎。
相关阅读:
雷林鹏分享：EJB安全
 雷林鹏分享：EJB事务管理
 雷林鹏分享：EJB Blobs/Clobs
雷林鹏分享：EJB嵌入对象
 雷林鹏分享:EJB拦截器
 Linux 学习
 数学知识总结
 信贷风控模型开发----模型流程&好坏样本定义
 信贷风控模型开发----模型简介
 TreeMap源码剖析
原文地址：https://www.cnblogs.com/drjava/p/10948865.html

Copyright © 2020-2023 润新知