给王心凌打Call的，原来是神奇的智能湖仓

给王心凌打Call的，原来是神奇的智能湖仓

图文原创：谭婧（王❤凌老粉）

“爷青回”

“我们只是老了，并没有死。”

谭老师作为老粉，热烈庆祝“甜心教主”王❤凌成为现象级翻红顶流。

只要地球不爆炸，她的数据就一个都不能丢，还得用好了。

那为王❤凌从头开发一套大数据与智能系统吧？

答案，没必要。

不能把精力花在和IT基础设施你死我活地缠斗中。

就好比，当你的目的是去开会，那就不能去搭建会议室。

所以，这边建议电视台：

把所有数据放到公有云上，使用无服务器架构（Serverless），将项目命名为：

“王❤凌老粉打Call数据项目”

每一家云厂商都能拿出足够的资料来证明自己的产品才是最好的，我们不在此处争论。

方案技术选型上，一步到位，挑选一朵最大的，全球部署的公有云，方便❤凌文化出海。

用亚马逊公有云，全方位无死角给❤凌打Call。

首先，王❤凌的视频，音频，电视剧，演唱会等大批量历史数据，不存放在本地IDC上。

现在疫情，供应链紧张，硬件采购周期太长，电视台的审批流程也太长，不能等。

直接将❤凌的所有数据妥善存储在Amazon S3 数据湖中。

不同种类的数据都能存，量大量少都能存，而且不会丢，永远在数据湖里，安全，放心。

技术上，这些文件存进S3数据湖自动成为数据API，方便调用，标准一致，取用方便。

怪不得，有人称S3为事实上的云计算对象存储标准。

没有数据指导的业务，怎么可能做好？

领导着急看数，数据分析人员更着急，这个情况不允许发生，立刻配备云数据仓库Amazon Redshift。

联合查询的功能不能少：

比如，某电视台数据分析专家想查手机APP平台和大屏电视机顶盒观看平台的用户之间的联系。

Redshift联合查询可以直接从手机App平台（已入湖），大屏电视机顶盒平台（基于数据库），获取数据的联系。

晚上九点，晚饭后，某一批用户在电视上反复观看王❤凌现场舞蹈（产生的行为数据存在数据库中，包括当时产生的很多标签）。

然后，我们直接查询一批用户在手机App中的观看过和这些行为数据中的标签相关的视频（这些数据存在数据湖里），比如标签里有“甜心教主” “电视剧”。

这两类数据存放在不同的地方，一个在数据库，一个在数据湖。如果之前没看过相关视频（“王❤凌男孩跳舞热榜”），就向手机App端推送。

实时智能分析必不可少：

先将历史数据和新鲜（实时）两种数据同时接入云数据仓库Redshift。

Amazon Redshift ML 使数据分析师和数据库开发人员可以在Redshift 数据仓库中使用熟悉的 SQL 命令轻松创建、训练和应用机器学习模型。

实时看板必不可少：

某电视台，没有设置王❤凌线上投票，实在令人遗憾，氛围感差些些。

建议电视台开展线上投票，并公开实时看板，让全国粉丝了解投票热度整体进展，即时知道投票效果。

所有产生的实时打榜数据，接入流式数据管道Amazon Kinesis，数据像水流一样一直灌进来。

并不是所有人时时刻刻在打榜，水流有大有小，而无服务器架构的Kinesis可以基于水流的大小即时弹性扩缩，无需关心流量高峰低谷，安心接入。

Redshift创建流式物化视图对接Kinesis，结合数据仓库内历史数据生成实时看板。

那些不能从电视台数据仓库里直接取数的外部团队，比如，抖音和快手，办法是电视台借助Amazon Redshift Data Sharing的功能，将数据安全共享。

查询并发高峰的时刻，Redshift并发扩展能力也能轻松应对。

总而言之，数据仓库性能越高越好，价格越便宜越好。

这就要靠云厂商的技术手段了，压力给到亚马逊云科技这边。

“王❤凌老粉打Call数据项目”项目，危险行为识别必不可少：

用日志分析服务Amazon OpenSearch，做链路追踪，监视黑产恶意刷榜，确保公平。

“王❤凌老粉打Call数据项目”项目，数据库选型如下：

1. 如果王❤凌开直播，刷礼物的交易数据，先放入极致弹性的Amazon DynamoDB中，再将历史数据同步到Redshift数据仓库。

2. 手机APP用户浏览王❤凌视频的行为，记录等，也得存入非关系型数据库DynamoDB中。

本方案，为突发状况，准备了预案。

突发情况一：

突然，某天，要查询一遍过去十年的王❤凌数据，可能几十PB。

方法一：这种使用频率极低，又要分析海量数据，成本还要低的查询，就用Amazon Athena。

方法二，搭建一个Hadoop系统。但是，为了干这件事情，耗费的人力物力非常可怕，从头干起大约两个月。

在Athena里，查询按次按量计费，一定要查询的话，这笔费用可以出。

突发情况二：

“王❤凌男孩跳舞热榜”现象，让人始料不及。跟风创作，大量上传热舞视频。

实时处理这些视频并提取特征，为下一阶段分析提供数据，得用什么技术呢？

答案是，流式数据分析技术，Amazon Kinesis Analytics。

另外，历史数据怎么处理呢？

答案是，使用托管大数据平台Amazon EMR处理大规模历史数据，为❤凌的每一个历史视频都打上标签。同时EMR Serverless以极简的开发来处理数据，同时实现最低的成本。

最后强调一句，亚马逊云科技Serverless无服务器架构，很黑科技。

初听还是小学生，再听已是社会人，支持❤凌，致我们逝去的青春。

“王❤凌老粉打Call数据项目”方案的技术选型部分就介绍完了。

刚刚提到很多亚马逊云科技产品服务，大家感兴趣的话也可以扫码进入官网阅读，一起学习成长，欢迎交流讨论~

来源：公众号亲爱的数据
相关阅读:
freemarker时间转换197
用FileZilla服务器端和客户端实现本机与虚拟机之间文件上传和下载197
springboot pom 详解197
eclipse svn197
eclipse 安装git197
listen()函数中backlog参数分析
 linux 函数库使用
 gdb调试问题汇总
 gdb调试多线程
 linux-C 多线程编程
原文地址：https://www.cnblogs.com/cmt/p/16376604.html