技术俯瞰
云 管 端
A B C-- 数据 算法 算力
端管云-ABC
终端-Terminal
端侧数据采集
端侧AI模型
边缘--EON-Edge of Network边缘网络
数据采集和处理以及上传
数据通信
边缘网络和模型
云端 --Cloud
01.数据
结构化数据:
非结构化数据
02. BigData大数据技术趋势
01.存储和计算分离
计算资源与存储资源可以独立伸缩,计算资源可以在计算完成后立即释放
001.存储-对象存储 - 湖仓一体
002.计算-计算引擎 - 批流一体
02.资源调度-在线离线混部在线离线混部解决方案
03.AI模型
湖仓一体
如何利用对象存储提供的无限存储能力,同时又高效地操作文件系统的元数据
对象存储
Ceph 是对象存储,块存储和文件系统开源平台
MinIO 是一款开源云存储软件
OpenIO 是用于管理和保护大量非结构化数据的开源对象存储解决方案
LakeFS 是一个开源数据环境工具,可让您管理基于对象存储的数据湖
数据湖 :ACID 功能,支持实时消费增量数据、离线批量更新数据
01.开源
Apache CarbonData 华为
Open Delta Lake Databricks推出的delta Delta Lake存储一个事务日志,以跟踪对表目录所做的所有提交,以提供ACID事务
Apache Hudi Uber的 Hadoop Upserts Deletes and Incrementals,主要支持Upserts、Deletes和增量数据处理
Apache Iceberg Netflix
02.商业
华为
FusionInsight 智能数据湖
存算分离:OBS实现存储计算解耦
阿里
阿里云数据湖构建(Data Lake Formation,DLF)
基于对象存储OSS、数据湖构建Data Lake Formation
存储的部分叫 JindoFS。JindoFS 是阿里云针对云上存储定制的自研大数据存储服务
Jindo FS 有两种使用模式,块存储模式和缓存模式
腾讯:
数据湖解决方案以 COS 为数据湖底座,支持多种格式数据海量存储;
通过数据湖加速器 GooseFS 无缝对接各类计算和机器学习平台,打破数据孤岛
ByteLake:字节跳动基于Apache Hudi的实时数据湖平台
微软:
Azure Data Lake -- Azure Data Lake Store
基于 Azure Blob 存储构建的高度可缩放的安全 Data Lake 功能
Amazon
Galaxy数据湖基于Amazon的Simple Storage Service或对象存储服务S3构建
批流一体
Spark Flink
混部
K8s
A 人工智能 Artificial Intelligence
常见的机器学习算法
线性回归
逻辑回归
决策树
SVM
朴素贝叶斯
K最近邻算法
K均值算法
随机森林算法
降维算法
Gradient Boost 和 Adaboost 算法
深度神经网络
DNN--- CNN RNN
计算机视觉 (Computer Vision CV)又称为机器视觉(Machine Vision)
自然语言处理(Natural Language Process, NLP)
语音识别 (Speech Recognition)
算法应用等级
开窗即用
使用框架
开发和修改框架的
B 大数据 Big Data
存储 HDFS Hbase S3 OBS
传输 Kafka
计算 Flink Spark Hive Clickhouse
资源调度: Yarn Kubernetes 资源调度 时间调度 依赖调度
服务 可视化 采集
C 云计算 Cloud
云计算技术- 云原生 Cloud Native
以资源编排为主体向以应用编排为主体转变
认证 计算机节点管理 计算机网络管理 镜像服务管理 UI服务
开源的云基础架构服务 OpenStack 围绕虚拟机构建的IaaS资源管理体系
商业的云基础架构服务
涉及技术: 服务器虚拟化 有Citrix Xen VMware ESX Server 和Microsoft Hype-V
未来:-存储和网络 虚拟化网络技术 存储的管理
资源 应用和服务 安全是底线
Dev(开发人员)+Ops(运维人员)
给用户提供三种环境,实验环境、离线任务、在线服务