7.1 基本“映射 - 化简”
略
7.2 分区与归并
7.3 组合“映射-化简”
为了使计算工作可以在集群中的各个节点上并发执行。
“映射任务”:只能操作同一个聚合内的数据。
“化简任务”:只操作具有同一关键字的数据。
7.3.1 举例说明两阶段“映射-化简”
如果“映射-化简”计算比较复杂,可以使用“管道及过滤器”。
7.3.2 增量式“映射 - 化简”
许多情况是,计算过程中,新数据不断涌入,为了保证数据不过时,必须从头计算,这样很耗时,通常用“增量更新”的形式。
7.5 要点
- “映射-化简”:是一种在集群上执行并发计算所用的模式。
- “映射”:任务从聚合中读出数据,将其缩减为键值对。映射只能读一条记录,所以可以在存放记录的节点上并发执行。
- “映射任务”:会生成许多具备同一个关键字的值,而“化简任务”将它们简化为单一的输出值。化简函数可以并发。
- 输入数据与输出数据形式相同的多个“化简函数”可归并为“管道”,以提高并发执行能力,并减少传输数据量。