• 大数据漫谈


    一 50年科技发展史

    方向 公司组织 年代 代表
    大型机 IBM 70年代 System z、AIX
    小型机 DEC、SUN 80年代 SPARC、Solaris
    廉价PC+光纤 Google 90年代 Intel、Seagate
    大数据 Google 2003-2004 GFS、MapReduce、BigTable
    开源 Apache 2006-2007 Hadoop、HBase
    人工智能、深度学习 Google 2016 TensorFlow

    “当网络变得像处理器一样快的时候,连到网络上的电脑就会变得空空如也。”
    --埃里克 施密特,SUN CTO,1993

    “互联网即将消失,物联网将无所不能。”
    --埃里克 施密特,Google CEO,2015

    背后的驱动力

    网络->互联网->数据爆炸->大数据->人工智能

    二 回到硬件

    硬件 细节
    CPU SIMD指令(Single Instruction Multiple Data)-向量化查询
    GPU 矩阵运算加速-算法
    内存 DDR、JVM-GC
    硬盘 接口:IDE/ATA、SATA、PCLE、SCSI、SAS、FC;分类:机械硬盘、固态硬盘;机械硬盘:5600转、7200转、垂直式、叠瓦式;读写:顺序读写、随机读写;RAID;
    网卡 千兆网卡、万兆网卡;交换机;网络抖动;

    性能量级

    标的 特点 量级-顺序读写 量级-随机读写
    内存 容量小、特别贵、读写特别快、无持久化 10GB/S 10GB/S
    机械硬盘HDD 容量大、寿命长、便宜、读写慢(尤其是随机读写) 100MB/S 1MB/S
    固态硬盘SSD 容量中、寿命短、一般贵、读写快 100MB/s 10MB/s

    性能实例

    https://www.userbenchmark.com/

    内存

    机械硬盘

    固态硬盘

    常识

    标的1 标的2 对比
    GPU-矩阵运算 CPU-矩阵运算 10倍以上
    内存-读写 硬盘-顺序读写 100倍
    内存-读写 固态硬盘-随机读写 1000倍
    内存-读写 机械硬盘-随机读写 10000倍
    固态硬盘-顺序读写 固态硬盘-随机读写 10倍
    机械硬盘-顺序读写 机械硬盘-随机读写 100倍
    固态硬盘-顺序读写 机械硬盘-顺序读写 10倍以内
    固态硬盘-随机读写 机械硬盘-随机读写 10倍
    • 机械硬盘随机读写瓶颈:机械臂寻址,寻址时间
    • 机械硬盘的反击:组RAID、拼数量、顺序读写

    清楚这些量级差距之后,就能了解海量实时写入为什么要这样实现,例如:HBase、Kafka

    三 发展历程

    2016:Is Big Data Still a Thing? (The 2016 Big Data Landscape)
    https://mattturck.com/big-data-landscape/

    2017:Firing on All Cylinders: The 2017 Big Data Landscape
    https://mattturck.com/bigdata2017/

    2018:Great Power, Great Responsibility: The 2018 Big Data & AI Landscape
    https://mattturck.com/bigdata2018/

    2019:A Turbulent Year: The 2019 Data & AI Landscape
    https://mattturck.com/data2019/

    2020:Resilience and Vibrancy: The 2020 Data & AI Landscape
    https://mattturck.com/data2020/

    2021: Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape
    https://mattturck.com/data2021/

  • 相关阅读:
    Asp.net2.0页面执行顺序
    [转帖]常用的SQL语句
    [转帖]黑客技术经典问题FAQ
    面试的一些心得
    较全的正则表达式
    很好的创业建议
    [转帖]如何让菜单项与工具栏按钮对应
    源码下载网站
    [转帖]一段测试代码
    GOF设计模式趣解(23种设计模式) <转自百度空间>
  • 原文地址:https://www.cnblogs.com/barneywill/p/16330009.html
Copyright © 2020-2023  润新知