Storm 分配逻辑

Storm 分配逻辑

ps：都是学习的别人的博客，只是做了个整理所有就写成了原创，其实都是人家的东西

当一个topology在storm cluster中运行时，它的并发主要跟3个逻辑对象相关：worker，executor 和task

1. Worker 是运行在工作节点上面，被Supervisor守护进程创建的用来干活的JVM进程。每个Worker对应于一个给定topology的全部执行任务的一个子集。反过来说，一个Worker里面不会运行属于不同的topology的执行任务。

2. Executor可以理解成一个Worker进程中的工作线程。一个Executor中只能运行隶属于同一个component（spout/bolt）的task。一个Worker进程中可以有一个或多个Executor线程。在默认情况下，一个Executor运行一个task。

3. Task则是spout和bolt中具体要干的活了。一个Executor可以负责1个或多个task。每个component（spout/bolt）的并发度就是这个component对应的task数量。同时，task也是各个节点之间进行grouping（partition）的单位。

conf.setNumWorkers(workers); //设置worker数量
uilder.setBolt("2", new WordSpliter(),4) //设置Executor并发数量
builder.setBolt("2", new WordSpliter(),4).setNumTasks(1); //设置每个线程处理的Task数量

任务分配时有两种情况：

(a)task数目比worker多，例如task是[1 2 3 4],可用的slot只有[host1:port1 host2:port1]，那么最终是这样分配

{1: [host1:port1] 2 : [host2:port1]
3 : [host1:port1] 4 : [host2:port1]}

可以看到任务平均地分配在两个worker上。

(b)如果task数目比worker少，例如task是[1 2]，而worker有[host1:port1 host1:port2 host2:port1 host2:port2]，那么首先会将woker排序，将不同host间隔排列，保证task不会全部分配到同一个机器上，也就是将worker排列成

[host1:port1 host2:port1 host1:port2 host2:port2]

然后分配任务为

{1: host1:port1 , 2 : host2:port1}

通过Config.setNumWorkers(int))来指定一个storm集群中执行topolgy的进程数量, 所有的线程将在这些指定的worker进程中运行. 比如说一个topology中要启动300个线程来运行spout/bolt, 而指定的worker进程数量是60个, 那么storm将会给每个worker分配5个线程来跑spout/bolt, 如果要对一个topology进行调优, 可以调整worker数量和spout/bolt的parallelism数量(调整参数之后要记得重新部署topology. 后续会为该操作提供一个swapping的功能来减小重新部署的时间).
对于worker和task之间的比例, nathan也给出了参考, 即1个worker包含10~15个左右, 当然这个参考, 实际情况还是要根据配置和测试情况
相关阅读:
高一下期末考试划水记
 BZOJ 1053
积性函数与狄利克雷卷积（未完待更）
Contest Hunter 3101
POJ2689
3.17爆零赛
 全概率公式
 矩阵快速幂
 模板练习
 _rqy's Code Style for OI
原文地址：https://www.cnblogs.com/catkins/p/5256507.html

最新文章
洛谷 P1417 烹调方案
 洛谷 P2814 家谱
 树链剖分
 概率与期望
 数位dp
国庆培训——郑州游记
 q
各种板子
 ST表
 2016.8.25 分治