• 大数据总结 (zz)


    最近刚看了新的一期《程序员》杂志的一篇大数据的文章,总结的特别好,为了方便我去查找所有将里面的内容再次精简后写下来。

    在这篇文章里主要是几个方面:
    数据传输、数据存储、数据计算、数据展现、数据开发平台、数据应用市场

    我之前对数据的总结在:数据存储、数据管理、数据计算

    数据传输包括:实时同步、批量同步。一般常用方式采用时间线。

    数据存储包括:内核级分布式存储、用户级分布式文件存储、业务级数据存储。

    前两个类别其实很好理解,最后一个是有分类的,包括:列式数据库存储、文档数据库存储、K/V型数据库存储、图形数据库、关系型数据库。以上数据库都构建于文件系统之上。

    数据计算包括:离线计算、流式计算、即时计算、图计算。

    离线计算这是我们常用的(适应于很多场景),具体的体现就是在hadoop上运行M/R模型(有些离线计算,还是基于内存的方式)。

    流式计算的依据数据时间的增长,而数据的价值会快速下降。它依赖于上游数据传输的正确性、实时性、下游存储系统的高吞吐量,目前因为没有这样的业务,所以还没能体验流式计算。(使用的工具是Storm)

    即时计算是根据查询需求从海量数据中即时进行排名、排重、汇总等运算。此系统又分为两类:在线数据应用和在线数据分析,前者目前在Google里用的PowerDrill项目,在阿里集团用的Garuda项目;后者Google使用Dremel,Cloudera使用Impala(可分析Hbase和HDFS,与Hive共享元数据,这个工具也是后面我们需要调研),目前在Apache里Drill开源项目也在开发中。

    图计算对用户关系、网页关系等数据的深度挖掘,涉及大型的矩阵计算、图计算和网络计算。解决此类问题引入了MPI或BSP模型,目前Apache的Hama项目就是应用于此等场景。

    数据展现简单地讲就是通过表格、饼图、柱状图展现数据,也叫数据可视化。

    数据开发平台和数据应用市场,这两块对我来说还是很陌生的,以后再好好琢磨吧。

  • 相关阅读:
    python之Selenium
    Python常用集锦(upgrading...)
    豆瓣爬虫
    poj 2299 Ultra-QuickSort(求逆序对)
    nyoj117 求逆序数
    codeforces 644A Parliament of Berland
    codeforces 659A Round House
    poj 3264 Balanced Lineup(RMQ裸题)
    nyoj 119 士兵杀敌(三)(RMQ)
    hdu 5655 CA Loves Stick
  • 原文地址:https://www.cnblogs.com/end/p/2831484.html
Copyright © 2020-2023  润新知