• 分析数据驾驭大数据阅读手记之技术、流程及方法


    每日一贴,今天的内容关键字为分析数据

        刚刚翻了翻《驾驭大数据》这本书,里头讲授的东西通俗易懂,里头技巧性比较强的部份是关于 大数据的技巧,流程及方法。浏览当时,对大数据分析的技巧、流程及方法会有一个概念性的团体认知,虽然不设计技巧细节,但读读,很多东西能串联起来。

        

        数据分析性能的晋升历程:

        1. 数据分析技巧的演进历程,从扩展的角度

        database 磁带库数据 --> 关系型数据库 --> Relation Databases Management System, RDBMS关系型数据库管理系统 --> Data Mart 数据集市 --> EDW (Enterprise Data Warehouse) 企业级数据仓库

        2. 分析环境与数据管理环境的关系是什么?

        从前:互相分离,离线处置模式

        现在:互相融合,库内处置模式,取代离线分析处置模式,以支持各种高级分析。

        库内处置模式

        

        3. 数据分析通用的工拥有哪些?

        不限于下面的工具:

        1). MPP海量并行处置Massive Parallel Process 数据库系统,关系型数据库,处置结构化数据

        2). 云计算架构,可以很方便地在硬件、平台方面停止扩展

        3). MapReduce的处置方式,程序并发执行,处置半结构化、非结构化数据

        

        4. MPP海量并行处置数据库,对数据停止准备和评分的方法有哪些?

        1)SQL,sql能力的开展

        2)用户自定义函数UDF

        3)嵌入式过程

        4)预测模型标记语言PMML Predictive Modeling Markup Language.

        

        5. MPP, 云计算,mapreduce的作用有哪些? 并且有哪些整合方式?

        1)数据库在云中运行。

        2)数据库内置mapreduce

        3)mapreduce与数据库的数据互相传递,同时应用

        4)mapreduce对数据库内的数据之间停止处置

        

        

        分析流程的演进:

        1. 什么是分析沙箱?有什么必要性?

        一个资源组,是一个直接驻留在数据库外部的工作空间,即库内分析,支持各种高级分析。与DB相分离。有时间限制。

        充分利用库内分析的可扩展性的技巧优势,直接驻留在数据库系统外部的工作空间,而不是先前的专门的服务器用来支持分析。

        长处:独立、灵活性、效率、自在、速度。

        适合数据摸索、分析开发及原型创立。

        但不适用于出产性、或重复性的系统。

        

        2. 沙箱有哪些类型?各有什么特点?

        1) 外部份析沙箱

        从企业数据仓库或数据集市中分别一块区域,用于分析测试样本数据,现在再加上一个 mapreduce环境,增强分析能力

        搭建沙箱,与创立数据库容器相似,只不过可以付与某些用户权限,并规定如何应用它

        长处: 生成环境的数据和沙箱的数据可以直接停止关联分析

        无需额定的本钱,但数据迁移麻烦,或受出产环境资源限制

        2)外部份析沙箱?

        独立的物理分析环境,用于测试和开发各种分析流程。一般包括关系型数据库和mapreduce组件两项。

        每日一道理
    成功的花朵开放在啊勤劳的枝头,失败的苦果孕育在懒惰的温床之中。

        长处:增加负载管理、架构简略

        缺陷:增加本钱、数据迁移

        3)混合分析沙箱

        外部沙箱:利用出产系统技巧能力的灵活性

        外部沙箱:可以完成某些高级摸索任务

        但增加的庞杂性,数据一致性检查。需建立一定的分析准则。

        

        4. 系统负载管理与沙箱的关系是什么?

        不增加投资,充分利用现有资源,合理安排负载

        

        

        5. 什么是分析数据集

        可以直接用于分析的数据集合,如客户、区域、产品、供应商等

        为支持某个分析或模型而搜集的数据,且格式满意一定的需要。能减缓高效存储和方便应用 之间的矛盾。

        关系数据、第三范式:便于存储或恢复,但不便于庞杂的分析。

        开发分析数据集: 抽样数据,变量丰富,用于开发测试

        出产分析数据集:真实模型部署,数据深(数据量大)、但只包括特定的特征数据。

        

        传统数据集引入的问题有哪些?

        冗余、不一致、重复性工作

        

        6. 如何升级传统基于ADS的分析项目?

        可以升级为更加标准的EADS企业分析数据集,而不是简略地迁移到库内分析的架构中。

        

        7. EADS是什么?有什么长处?

        EADS是一个预定义好的汇总表和概要视图,可以方便地访问成千上百个分析所需的指标。

        长处:晋升了系统性能,增加了数据冗余,增加透明度,并确保数据的一致性。

        其应用范围:不仅适用于各种分析,还可以给其他用户和应用。

        

        汇总表:计算一次,多次应用;大批应用历史数据,实时性不是很高;需要占用大批的系统资源;可以直接应用,无需关联等操纵。适用于非实时性数据。

        视图:实时;视图内永远是最新的数据;更新能快速完成。但系统负载减轻。适用于实时性高的数据。

        

        7.  什么是嵌入式评分过程?有哪些实现方式?

        评分过程就是将分析的结果停止广泛应用,并为用户屏蔽庞杂的模型。其可以部署在沙箱环境或EADS环境中。

        实现方式包括:SQL,UDF,嵌入式过程,或PMML

        

        8. 模型与评分管理系统的组件有哪些?

        输入分析数据集、模型定义、模型验证与报表制造、模型评分输出。

        

        分析工具与方法的演进

        1. 组合模型、简略模型、最优模型,哪种更适用?

        三者各有特点。

        能满意需求即可。

        

        2. 用户界面,对分析专家的作用有哪些? 

        能提高出产力,但是前提是晓得自己在做什么,并确保工具“最适外地工作”。

        

        3. 什么是单点解决方案?

        专注于一个具体领域的分析,如欺诈或订价。通常基于一些分析工具套件,如SAS,并调用其一些基本功能。针对某一明确的问题集合。收费昂贵。

        

        4. 开源分析工拥有哪些?

        R项目,开源分析工具集。依赖编程、可扩展性差,缺乏企业级的分析可扩展性。

        Apache项目

        

        5. 可视化工拥有哪些?

        Tableau、JMP、Advizor、Spotfire

        

        PS:

        1. ETL: Extract, Transform, Load

        2. EDW : enterprise data warehouse

    文章结束给大家分享下程序员的一些笑话语录: PC软件体积大,是因为一个PC软件功能往往较多,能够满足你一个方面的需求,而一个iphone软件往往没几行代码,干一件很小的事情,自然需要的软件就多。就像吃西瓜和吃瓜子的来比数目,单位不同啊。

    --------------------------------- 原创文章 By
    分析和数据
    ---------------------------------

  • 相关阅读:
    python的正则表达式 re-------可以在字符串前加上 r 这个前缀来避免部分疑惑,因为 r 开头的python字符串是 raw 字符串,所以里面的所有字符都不会被转义
    mysql中max_allowed_packet参数的配置方法(避免大数据写入或者更新失败)
    提交 git 项目 到 github 在 centos 7
    常用正则表达式大全 (转)
    如何让vim编辑器永久显示行号
    Ubuntu下忘记MySQL密码重设方法
    Base64复习
    好用的正则表达式工具
    64位centos下安装python的PIL模块
    springboot中使用servlet通过配置类
  • 原文地址:https://www.cnblogs.com/jiangu66/p/3105074.html
Copyright © 2020-2023  润新知