一 50年科技发展史
方向 | 公司组织 | 年代 | 代表 |
---|---|---|---|
大型机 | IBM | 70年代 | System z、AIX |
小型机 | DEC、SUN | 80年代 | SPARC、Solaris |
廉价PC+光纤 | 90年代 | Intel、Seagate | |
大数据 | 2003-2004 | GFS、MapReduce、BigTable | |
开源 | Apache | 2006-2007 | Hadoop、HBase |
人工智能、深度学习 | 2016 | TensorFlow |
“当网络变得像处理器一样快的时候,连到网络上的电脑就会变得空空如也。”
--埃里克 施密特,SUN CTO,1993
“互联网即将消失,物联网将无所不能。”
--埃里克 施密特,Google CEO,2015
背后的驱动力
网络->互联网->数据爆炸->大数据->人工智能
二 回到硬件
硬件 | 细节 |
---|---|
CPU | SIMD指令(Single Instruction Multiple Data)-向量化查询 |
GPU | 矩阵运算加速-算法 |
内存 | DDR、JVM-GC |
硬盘 | 接口:IDE/ATA、SATA、PCLE、SCSI、SAS、FC;分类:机械硬盘、固态硬盘;机械硬盘:5600转、7200转、垂直式、叠瓦式;读写:顺序读写、随机读写;RAID; |
网卡 | 千兆网卡、万兆网卡;交换机;网络抖动; |
性能量级
标的 | 特点 | 量级-顺序读写 | 量级-随机读写 |
---|---|---|---|
内存 | 容量小、特别贵、读写特别快、无持久化 | 10GB/S | 10GB/S |
机械硬盘HDD | 容量大、寿命长、便宜、读写慢(尤其是随机读写) | 100MB/S | 1MB/S |
固态硬盘SSD | 容量中、寿命短、一般贵、读写快 | 100MB/s | 10MB/s |
性能实例
https://www.userbenchmark.com/
内存
机械硬盘
固态硬盘
常识
标的1 | 标的2 | 对比 |
---|---|---|
GPU-矩阵运算 | CPU-矩阵运算 | 10倍以上 |
内存-读写 | 硬盘-顺序读写 | 100倍 |
内存-读写 | 固态硬盘-随机读写 | 1000倍 |
内存-读写 | 机械硬盘-随机读写 | 10000倍 |
固态硬盘-顺序读写 | 固态硬盘-随机读写 | 10倍 |
机械硬盘-顺序读写 | 机械硬盘-随机读写 | 100倍 |
固态硬盘-顺序读写 | 机械硬盘-顺序读写 | 10倍以内 |
固态硬盘-随机读写 | 机械硬盘-随机读写 | 10倍 |
- 机械硬盘随机读写瓶颈:机械臂寻址,寻址时间
- 机械硬盘的反击:组RAID、拼数量、顺序读写
清楚这些量级差距之后,就能了解海量实时写入为什么要这样实现,例如:HBase、Kafka
三 发展历程
2016:Is Big Data Still a Thing? (The 2016 Big Data Landscape)
https://mattturck.com/big-data-landscape/
2017:Firing on All Cylinders: The 2017 Big Data Landscape
https://mattturck.com/bigdata2017/
2018:Great Power, Great Responsibility: The 2018 Big Data & AI Landscape
https://mattturck.com/bigdata2018/
2019:A Turbulent Year: The 2019 Data & AI Landscape
https://mattturck.com/data2019/
2020:Resilience and Vibrancy: The 2020 Data & AI Landscape
https://mattturck.com/data2020/
2021: Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape
https://mattturck.com/data2021/