hadoop–JobTracker 相关

JobTracker 内部使用三层表示：

JobInProgress：跟踪和监控作业运行状态的对象。每个Job分成了多个Task。并为每个Task创建一个TaskInProgress跟踪和监控其运行状态。

而Task在运行过程中由于多种原因，比如软件Bug，硬件故障、推测机制等，每个Task可能尝试运行多次，直到运行成功或者超过尝试次数而失败。

每次的尝试为TaskAttemp。

作业使用JobId区分，JobId ： job的前缀字符串、JobTracker启动时间和作业提交顺序。

比如job_20128071706_0009

每个任务使用TaskID来区分， TaskID: JobID(前缀字符串为task)、任务类型(map 或者redice) 任务编号

比如task_201208071706_0009_m_000000 表示上面JobId表示的一个Job的一个Task

TaskAttemp也是用ID来区分，TaskAttemptID：任务ID(前缀字符串attempt) 和运行尝试次数(从0开始)

比如 attempt_201208071706_0009_m_000000_0 表示上面TaskID表示的Task的一次尝试。

从作业的恢复粒度，当前存在三种不同级别的恢复机制，按照级别从低到高依次为

级别越低实现越简单，但是资源的浪费越严重。目前简化设计考虑，采用的是作业级别的恢复机制。

为解决部分作业慢拖后腿的问题，提出了任务推测执行机制。为拖后的任务启动一个备份任务。该任务和原始任务同时处理同一份数据，最终选用先成功运行完成的任务的计算结果作为最终的结果。

该问题出现的原因为Hadoop设计上的假设

实际情况是复杂的，由于集群异构或者负载不均衡，就会产生问题。

一个任务同时满足以下添加，就会为该任务启动一个备份任务：

当任务的某个Task Attempt成功运行后，JobTracker会杀掉另外一个Task Attempt

上面算法的问题是：

20% 空间问题。即当作业内大部分任务已经完成，而若干个Task Attempt的进度已经大于等于80%，则永远不会触发启动备份任务。
缺乏保证备份任务执行速度的机制：新启动的备份任务需要首先处理原始Task Attempt已经处理完的数据，因此需要保证备份任务的运行速度不低于原始Task Attempt，否则就没有必要启动备份任务。
参数不可配置：即设定的20%% 和60s都是不可配置的。不能满足用户根据自己集群特点定制参数的要求

mapreduce.job.speculative.slownodethreshold ：任意一个TaskTracker 已完成任务的平均进度增长率和所有已完成任务的平均进度增长率的最大允许差距。默认为1. 超过阈值时标明该TaskTracker的性能比较低，不会在其上启动一个备份任务。
mapreduce.job.speculative.slowtaskthreshold：作业的任意一个任务的平均进度增长率与所有正在运行任务的平均进度增长率的最大允许差距。默认为1.超过阈值标明该任务运行过慢，需要启动一个备份任务。
mapreduce.job.speculative.speculativecap：限定作业允许启动备份任务的任务数目占正在运行任务的百分比。默认为0.1，即为一个作业启动推测执行功能的任务数不能超过过正在运行任务的10%

该算法的缺点是：

重点关注备份任务是否有潜力比当前正在运行的任务完成的更早。

相关阅读:
javascript --学习this
seaJS
wamp之htaccess的配置
replace之$1、$2等
nw.js使用
新电脑开发环境配置
vue-vue常用指令
Array的splice与slice
vue-入门体验
Object.defineProperty

原文地址：https://www.cnblogs.com/lovemdx/p/3221346.html