• Spark on Yarn 学习(一)


    最近看到明风的关于数据挖掘平台下实用Spark和Yarn来做推荐的PPT,感觉很赞,现在基于大数据和快速计算方面技术的发展很快,随着Apache基金会上发布的一个个项目,感觉真的新技术将会不断出现在大家的面前.

    作为技术发烧友,作为一个看客,来围观下,不过从PPT中列出来的技术来看,未来的发展趋势还是说是有的,而且还是很有发展前景的. 现在Spark和Yarn也就发布2年多的时间,随着社区力量的跟上,不断的将之前的项目都放到一个更好的资源架构的整合上来实现.特别是放到内存上来实现,在速度和效率上还是确实有区别于之前的其他技术.所以作为巨头之一的淘宝,就跟上的技术发展的趋势了.但是作为小公司而言,没有这样的大规模的机器部署的情况下,如何用利用好这些技术呢?

    下面是PPT中记录的一些笔记和插图.算是对整个架构有一个出不的了解,接下来有时间就努力的去尝试下.

    插上翅膀的大象 基于Spark on Yarn的淘宝数据挖掘平台

    为什么选择Spark On Yarn Spark On Yarn的原理和框架 淘宝在Spark On Yarn上做的工作 基于Spark On Yarn的数据挖掘平台架构

    案例性能

    Hadoop在数据挖掘遇到的问题 多次迭代 
    中介数据的序列化和反序列化 
    简单的MR模式 vs 复杂的机器学习算法 
    OO编程 vs 函数式风格 
    图计算能力

    Why Spark 
    RDD 
    内存计算 
    快速迭代 
    DAG

    Scala 
    FP编程 
    Actor编程 
    并发能力

    Hadoop 
    MapReduce 
    HDFS访问

    Spark的生态圈 Shark(Hive),Streaming(Storm),Mllib(Mahout),Graphx(GraphLab) 
    Spark (MapReduce) 
    Local Standalone Mesos Yarn HDFS HBASE

    Yarn版本0.23.7 目前淘宝部署了 5000 * 2 的架构

    Spark On Yarn 的框架 
    Spark的生态圈 
    image

    Spark On Yarn的实现流程 
    image

    推荐系统的具体架构 
    image

    总结 粗略的了解下技术架构,接下来有时间的话,深入的实际尝试下,搭建系统跑下svm等,体会下这个系统!

  • 相关阅读:
    day1
    day0
    Scala编程快速入门系列(二)
    Scala编程快速入门系列(一)
    awk使用方法与案例介绍
    快速掌握Shell编程
    yum源配置的三种方法
    部署Kettle做ETL开发并使用Crontab制作调度系统
    大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录
    RDD概念、特性、缓存策略与容错
  • 原文地址:https://www.cnblogs.com/scotoma/p/3472597.html
Copyright © 2020-2023  润新知