当今企业数字化转型,企业从传统的历史数据洞察获取认知,到实时数据洞察认知,再到未来预测洞察,AI + Data 是重要的两架马车。巧妇难为无米之炊,如何简单及时的从数据中获得洞察支撑决策?简单,是否有易用快捷的平台可以快速发现数据,分析数据并展现数据。及时,时间是试错成本的重要因子,是否有平台方案帮助企业满足数据实时要求。Azure Synapse Analysis 作为企业级的数据分析平台产品,可以帮助企业用户达成简单及时的要求。
简:Azure Synapse Analysis 利用统一分析体验的强大功能生成端到端分析解决方案。Azure Synapse Studio 为数据准备、数据管理、数据仓库、大数据和 AI 任务提供了统一的工作区。数据工程师可以使用无代码的视觉环境来管理数据管道。数据库管理员可以自动优化查询。数据科学家在几分钟内即可生成概念证明。业务分析师可以安全地访问数据集,并使用 Power BI 在几分钟内生成仪表板 - 始终使用相同的分析服务。
快:Azure Synapse Analysis 使用最新的操作数据随时立即了解相关信息,借助 Azure Synapse Link,通过简单、低成本的云原生 HTAP 实现立即、及时地深入了解你的业务。只需单击一下即可消除 Azure 数据库与 Azure Synapse 之间的壁垒,近乎实时地从实时操作数据存储中获取见解。无需复杂的 ETL 管道和额外的数据库计算资源,同时可通过 Azure Synapse 对实时数据运行分析工作负载,而不影响你的操作系统。业务分析师、数据工程师和数据科学家现可使用 Azure Synapse 运行近乎实时的业务智能、分析和机器学习管道,而不影响 Azure Cosmos DB 上事务工作负载的性能。
下面我们就带大家一起来了解一下 Azure Synapse Analysis。从去年开始 MSFT 对 Azure DataWarehouse 进行换装升级,首先从命名上变为 Azure Synapse Analysis,其次在产品上推出了很多重磅的功能,比如 Build-In Spark 的支持,SQL On-Demond 的支持等。如果将 Azure Synapse Analysis 看作一个数据分析平台产品,其以数据湖为数据中心构建了一套万花筒似的分析工具套件,覆盖了从数据的发现,ETL,分析再到展现整个数据链条。友好的使用体验和一站式的数据消费模式为企业实现数字化转型提供了很好的工具和平台。我们先看一下 Azure Synapse Analysis 的整体架构,从最下层的数据层 Azure Synapse Analysis 除了支持流行的基于对象存储构建的数据湖存储外,也支持与数据库产品进行直连(后称为 Synapse Link),在数据层之上 Azure Synapse Analysis 通过数据水线工具(对 Azure Data Factory 的整合)以及多种数据分析语言的支持(如 T-SQL,Spark)构建了完整的工具套件使用户数据洞察变的更加敏捷高效,在最上层分析引擎层用户 T-SQL/Spark 的全面覆盖及整合使用户可以基于开发喜好自由选择。
1.Azure Synapse Analysis 架构图
上面这个架构里面在 Cosmos DB 的连接上非常有意思,Azure Synapse Analysis 联合 Cosmos 推出一个 Synapse Link 功能,实现的类似 OLTP 和 OLAP 的直通,通常企业为满足数据跨系统以及追求分析性能,会把 OLAP 和 OLTP 分开构建。在数字化转型下数据驱动对于数据的新鲜度和实时性提出了新的要求,传统 OLAP 和 OLTP 数据同步存在滞后,OLTP 系统需要通过 ETL 工具将增量数据(CDC -- Change Data Capature)定期向OLAP 系统进同步,数据量,ETL 的复杂度以及 Data Warehouse 产品对于 Update 数据的开销为数据实时性带来了挑战。Azure Cosmos DB 在产品内部实现了 OLTP 和 OLAP 的兼顾,通过行存储响应 OLTP,列存储响应 OLAP,两套存储引擎并行并自动近乎无延迟的实时同步,下游的 Data Warehouse 可以直接消费到最新版本的数据,OLTP 和 OLAP 之间同步一键完成。
2. Azure Synapse Link with Cosmos Database
带着好奇心准备开箱一探究竟,为了让大家感受一跳直连的魅力,在后续的文章中会先为大家介绍一下如何通过 Azure Synapse Analysis DIY 一套解决方案,将上述 Cosmos Database 中的数据自动 Sync 到 DataWarehouse 中。最后再为大家介绍 Synapse Link。
3. Azure Synapse with CDC Data ETL
上图中 Path 1 为 Azure Synapse Link 直通模式,Path 2 为 DIY 解决方案,后续的 Blog 中先会为大家介绍 Path 2 的实现。
传送门:
- Azure Synapse Analysis 开箱 Blog - 贰 -- Cosmos DB Change Feed Setup
- Azure Synapse Analysis 开箱 Blog - 叁 -- Function ETL
- Azure Synapse Analysis 开箱 Blog - 肆 -- Synapse Analysis SQL Pool CDC Data ETL
- Azure Synapse Analysis 开箱 Blog - 伍 -- Data Factory Data Pipeline Automation
- Azure Synapse Analysis 开箱 Blog - 陆 -- Direct Data Access with Synapse Link