• 《数据中台:让数据用起来》阅读笔记


    IT时代是以自我控制、自我管理为主,而 DT(Data Technology)时代是以服务大众、激发生产力为主。这两者之间看起来似乎是技术的差异,但实际上是思想观念层面的差异。
    2015年,“互联网+”行动计划的提出,让企业内部IT与企业外部互联网思维产生火花,云和SaaS形态的应用开始出现,从IT到DT正式有了广泛的落地实践。

    数据将会是生产资料,计算是生产力,互联网是生产关系。

    企业面临的主要矛盾是无法解决业务端的灵活性和经营管理稳定性之间的冲突。

    人才永远是瓶颈,并且人才的具体定义在动态变化,需要为人才准备成长的土壤。

    传统的数据应用过往都是从外往内的 (利用外部的技术、数据和资源来服务内部需求)。例如,零售行业要做精准营销,在广告上砸钱,做用户画像分析,利用外部的技术、数据、资源来服务内部需求,但是做完了会发现企业自身没有沉淀,又回到了原点。

    能直接作用于业务领域,业务能阅读、能理解的数据才叫数据资产。

    当业务能够实现对象数字化、规则数字化、结果数据化时,业务自身的流程也就可以按照规则自由、自行组建和优化了。

    企业任何一个业务条线从初始设立到日益精细分化, 一般都遵循一个共性的演进过程:清晰定义该业务条线内专项业务 的“毛细血管”功能体系、建设或升级相应技术支撑系统、生成专项业务数据。当所有业务条线都遵循这个发展规律,纵横交错的业务条线构成 了企业实际运营的多维业务空间。 

    企业全量数据的数据空间大致由三个维度构成:自主生产和消费的数据、外部数据(含单向外部获取数据和单向对外提供数据)、内外部交互数据。

    数据中台建设特点: 业务数据化、数据资产化、资产服务化、服务业务化。 

    数据资产化:数据就像石油,需要经过提纯加工才能使用,这个过程就是。

    数据中台的需求不是来源于外部,而是来自内部,来自企业对自身未来 发展的担忧。数据中台是增援未来,是以发展的观点解决企业面临的问 题,面对不确定的未来,企业无法确认今天的数据未来会怎么用,会产 生什么样的价值,所以才需要数据中台。现在把数据源源不断地接进 来,源源不断地进行资产化、服务化,未来当企业看清楚业务场景,把 对数据的需求输入数据中台时,才知道原来数据可以这样使用,才知道 怎么去适配。数据中台是对未来场景的能力支撑,是增援未来的能力。 数据中台已经掀起了幕布的一角,幕布后面的精彩世界需要政府、产 业、行业、领先企业共同激荡演绎。欢迎走进数据中台的世界。

    数字化转型成功的企业,其内部和外部的交互均以数据为基础。业务的 变化快速反馈在数据上,企业能够迅速感知并做出反应,而其决策与考 核基于客观数据。

    数据中台的3个核心认知:

    1、“数据中台需要被企业提升到其下一代基础设施的高度,进行规模化投入”——数据孤岛林立(其实质是底层计算和 存储架构的复杂性和异构造成的)、数据资产化程度低、数据服务提供 效率与业务诉求严重不匹配等。数据中台更需要企业从战略高度进行顶层设计、确定规模化投入政策、设置更合理的组织架构,才能够确保数据中台作为数据应用的基础设施并落地建设,承担起企业数据资产全生命周期的管理。

    2、“数据中台需要全新的数据价值观和方法论,并在其指引下形成平台级能力”

    3、“数据中台围绕业务、数据、分析会衍生出全新人才素养要求,需要尽 快启动人才储备“——人才永远是瓶颈,并且人才的具体定义在动态变化,需要为人才准备成长的土壤。信息化历程中从简单的搭建网站、单功能系统开发,到复杂系统开发、建设、运营,再到新技术引入等都曾经是人才具体定义的重要关注点。在社会范围内,信息化人才天然趋向两类企业:成熟稳定的平台型企业或有成熟平台潜力的企业。企业只有围绕数据中台明确了人才在企业的定位和职业通道,才可能吸引到或培养出拥有业务、数据、分析等综合素养的新型信息化人才,企业在数据中台人才储备上需要尽 快做起来。

    数据中台的3个发展阶段:

    传统的数据应用(从外往内:例如广告砸钱,利用外部的技术、数据、资源来服务内部需求,但是做完了会发现企业自身没有沉淀,又回到了原点)->初步探索打造数据中台(借助一个个具体的场景化数据应用,做单个数据应用沉淀,来推动企业对数据中台的认知,积累各行业(特别是头部客户)的业务和服务经验快速迭代和打造数据中台。) ->数据中台将上一阶段构建起来的场景级数据,甚至是历史建成的系统都整合成企业级数据应用平台,提升效率 ,要想实现就需要具备3项能力:

    1、数据多云连接能力(汇聚/交换能力),用来解决企业有哪些数据、数据在哪里等问题。

    2、数据资产化的能力是数据中台建设的关键,包括清洗、加工、治理、 安全、质量等工具模块及实施方法论。(说明:能直接作用于业务领 域,业务能阅读、能理解的数据才叫数据资产。)

    3、数据服务化的能力,用数据技术来使用数据的方法。
    可借助市场上已有成熟的支撑数据中台高效运转的平台级产品来实现。

    ->数据中台重构数据空间和业务空间

    什么是数据中台:

    传统IT建设方式下,企业的各种信息系统大多是独立采购或者独立建设的,无法做到信息的互联互通,导致企业内部形成多个数据孤岛。互联网、移动互联网的发展带来很多新的业务模式,很多企业尝试通过服务号、小程序、O2O平台等新模式触达客户、服务客户,新模式是通过新的平台支撑的,产生的数据与传统模式下的数据也无法互通,这进一步加剧了数据孤岛问题。

    分散在各个孤岛的数据无法很好地支撑企业的经营决策,也无法很好地应对快速变化的前端业务。因此需要一套机制, 通过这套机制融合新老模式,整合分散在各个孤岛上的数据,快速形成数据服务能力,为企业经营决策、精细化运营提供支撑,这套机制就是数据中台。

     

    数据中台需要具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现4个核心能力,让企业员工、客户、伙伴能够方便地应用数据。

    数据汇聚整合:数据丰富和完善(对多样的数据源进行合并和完善)、管理简便(可视化任务配置以及丰富的监控管理能力)、数据集成与运营(数据中台能够接入、转换、写入或缓存企业内部多种来源的数据)、数据目录与治理(数据用户可以方便地定位所需数据,理解数据(包括技术/业务治理))、数据安全(确保数据访问权限)、数据可用(数据用户可以简便、可扩展地访问异构数据,可用性和易用性高)、部署灵活(支持本地部署,以及公有云、私有云、混合云等多种部署方式)。

    数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。

    在面向具体场景时,可以根据数据类型将汇聚对象分为结构化和非结构化、大文件和小文件、离线与在线等几种,不同类型的数据对存储的要求不同。同时,与业务数据化的方式也有关系,有些场景需要通过线上或线下的方式来实现数据的汇聚。

    随着互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始多元化,通过行为埋点、爬虫的方式来收集过程数据是企业非常重要的 方法和手段。从空间维度来看,用户行为可以分为线上行为和线下行为 两类,采集这两类行为所产生的数据所使用的方法是不一样的,而且方法也在随着技术的演进不断发展和变化。

    数据提纯加工:就是数据资产化。企业需要完整的数据资产体系,围绕着能给业务带来价值的数据资产进行建设,推动业务数据向数据资产的转化。需提供完善的安全访问控制、完善的数据质量保障体系、规范的紧密结合业务的可扩展标签体系、面向业务主题的自资平台、智能的数据映射功能,简化数据资产生成。

    数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具,以及任务的管理、代码发布、运维、监控、告警等一系列集成工具,方便使用,提升效率。

    数据服务可视化:数据资产的可视化分析,提供包括自然语言处理等人工智能服务、丰富数据分析功能、友好的数据可视化服务、便捷快速的服务开发环境,方便业务人员开发数据应用、实时流数据分析、预测分析和机器学习等更为高级的服务。

    数据价值变现:提供数据应用的管理能力、数据洞察直接驱动业务行动的行动的通路、跨业务场景的能力、跨部门的普适性业务价值能力、基于场景的数据应用(如推荐引擎、搜索引擎等)、业务行动效果评估能力。

    数据中台的业务价值与技术价值:

    数据中台的业务价值:以客户为中心的持续规模化创新,为企业提供更深层的客户洞察,从而为客户提供更具个性化和智能化的产品和服务。在以客户为中心的时代,只有赢得客户的企业才能在竞争中保持优势。 企业能否真正做到“客户至上”,并不断提高对客户的快速响应力来满足客户的需求,甚至引领市场潮流,持续推进规模化创新,终将决定企业能否在充满挑战和机遇的市场上发展壮大,长久保持生命力与竞争力。
    数据中台的技术价值:能力多、成本低、应用广。数字化转型的需求必将催生多元化的数据场景,而多元化的数据场景将会带来以下技术需求,企业数据中台建设势在必行。

    1.应对多数据处理的需求

    针对不同的数据应用场景,需要能够快速应对多数据处理需求,比如: 要保持原来的报表需求,仍需要保持批量离线计算的能力(Hadoop、 Oracle RAC);

    针对准实时的指标统计和实时推荐,需要实时流式计算的能力 (Storm、Spark Streaming、Flink);

    针对决策类业务如海量人群的圈人需求和ad-hoc需求,需要即席计算能 力(Greenplum、Elasticsearch、Impala);

    针对高并发业务场景(如用户画像),需要在线计算能力(MySQL、 Redis、Oracle)。

    因此,企业需要一个统一的数据中台来满足离线/实时计算需求、各种查询需求(实时查询和即席查询ad hoc),同时在将来新数据引擎(更快的计算框架,更快的查询响应)出现时,又不需要重构目前的大数据体系。

    2.丰富标签数据,降低管理成本

    根据全国信标委大数据标准工作组发布的《数据管理能力成熟度模型》 (DCMM),针对数据标准提到的数据分类主要有主数据、参考数据和指标数据,但根据目前真实的数据建设情况来看,需要对一类数据进行定义和分类,譬如标签名为“消费特征”,标签值为“促销敏感”“货比三 家”“犹豫不决”。数据中台能对这类标签进行快速定义和有效管理。

    3.数据的价值能体现业务系统效果而不仅是准确度

    过去的数据应用场景主要为报表需求,注重数据的准确性,但在更多数据场景下,特别是对于标签数据的应用,越来越多的数据是需要不断“优化”的,数据本身没有准不准确之分,比如某个会员是属于促销敏感人群,这个数据其实更多的说的是概率。

    4.支持跨主题域访问数据

    企业早期建设的应用数据层ADS(传统数据仓库ODS/DW/ADS)更多是为某个主题域所服务的,如营销域、人力资源域、风控域,而企业在数据应用的时候往往需要打破各个业务主题,会从业务对象主体出发来考虑数据应用,如人(会员、供应商、渠道、员工)和物(商品、仓 库、合同),从全域角度设计完整的面向对象的数据标签体系。

    5.数据可以快速复用而不仅是复制

    传统的架构中,要将数据应用到业务中,通用的做法都是通过数据同步能力,把计算的结果同步给业务系统,由业务系统自行处理,这会带来一个数据管理问题,即无法获取数据在应用场景中的具体价值和热度, 整个数据血缘链路也是割裂的。这种方式笔者们认为是复制数据,而不是复用数据。如何快速复用数据,正是可以在数据中台中解决的问题。

    数据中台建设与架构:

    企业数据应用的成熟度评估:

    通过企业数据对业务的支撑程度来评估企业应用数据的能力。 

     

  • 相关阅读:
    C3P0连接池详解及配置
    解决a different object with the same identifier value was already associated with the session错误
    sudo su 提示没有配置JDK environment
    MySQL 5.6 双机热备
    如何用myeclispe远程调试tomcat
    Incorrect string value: '\xF0\xA1\xA1\x92' for column 'herst' at row 1
    Mysql 慢查询设置
    Mysql的主从数据库没有同步的解决办法
    新的启程
    ASP.NET程序中常用的三十三种代码
  • 原文地址:https://www.cnblogs.com/Formulate0303/p/13361591.html
Copyright © 2020-2023  润新知