接下来的步骤包括:
1)将 AST 转换为 QueryBlock 进一步转换为 OperatorTree;
2)对 OperatorTree 进行逻辑优化(LogicalOptimizer);
3)将 OperatorTree 转换为 TaskTree(任务树);
4)对 TaskTree 进行物理优化(PhysicalOptimizer)。
之所以将这 4 个步骤写在一起,是因为这几个步骤在源码中存在于一个方法中。
1 compile 方法(接 2.4.2 节 compile 方法继续往下)
2 analyze 方法
3 analyzeInternal 方法
此方法为“org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer”抽象类的抽象方法,
我们进入实现类“org.apache.hadoop.hive.ql.parse.SemanticAnalyzer”的 analyzeInternal 方法。
4 继续调用重载的 analyzeInternal 方法
注意:该段源码中出现的“1,2,3,4…11”均为源码所定义步骤,该方法代码虽然很长,
但是由于存在官方提供的步骤注释,其实读懂并不难。
5 提交任务并执行(接 2.3.8 节 runInternal 方法继续往下)
此处接 2.3.8 节中的第二步:
6 execute 方法
7 launchTask 方法
8 runSequential 方法
9 executeTask 方法
10 execute 方法
此时我们进入了一个抽象“org.apache.hadoop.hive.ql.exec.Task”的“execute”方法,我们 则 需 要 找 到 一 个 实 现 类 的 “ execute ” 方 法 , 此 处 我 选 择
“org.apache.hadoop.hive.ql.exec.mr.MapRedTask”这个类。