• Spark源码走读7——Broadcast


    Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变量。

    广播变量允许程序员在每台机器上保持一个只读变量的缓存,而不是发送它的一个副本任务。他们可以用于:给一个大量输入数据集的副本以有效的拷贝到每个节点。Spark也尝试使用高效广播算法来降低通信成本。

    以下是源码结构:


    Spark目前提供了两种广播形式:

    l  HttpBroadcast:实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问

    l  TorrentBroadcast:一个BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。

    HttpBroadcast

    实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问。

    Initialize方法:

    源码如下:


    1、在driver端创建createServer。


    1、创建定时器

    MetadataCleaner封装了一个定时器TimerTask,用于定时清理元数据。

    TorrentBroadcast

    一种BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。

    Initialize:


    Torrent在此处没做什么,这也可以看出和Http的区别,Torrent的处理方式就是p2p,去中心化。而Http是中心化服务,需要启动服务来接受请求。



  • 相关阅读:
    【Oracle】EXPDP和IMPDP数据泵进行导出导入的方法
    【Oracle】无法删除当前连接的用户
    消除SVN锁定
    提取当前目录所有文件名
    【Weblogic】domain快速启动脚本
    Spring @Transactional注解不回滚不起作用无效
    协方差与相关系数
    利用深度学习解决直播支付风控[转]
    高质量API网关组件实现
    git使用初探
  • 原文地址:https://www.cnblogs.com/huwf/p/4273373.html
Copyright © 2020-2023  润新知