• Coursera, Big Data 1, Introduction (week 1/2)


    Status: week 2 done.

    Week 1, 主要讲了大数据的的来源 - 机器产生的数据,人产生的数据(比如社交软件上的update, 一般是unstructed data), 组织产生的数据(一般是structured data) 

    怎么把unstructured data 转化成 structured data?

      利用 Hadoop, Storm, Spark and NoSQL. Hadoop 能解决data量大的问题,因为它是支持分布式计算的。 Storm 和 Spark 能分析像社交应用这种短时间内产生大量实时数据的情况, 还能和任何类型的DB集成.

    传统的数据仓库是下面这样的。structed data 存在data warehouse里.

      

    而现在的大数据时代,很多企业都是采用hybrid方案 - 把少量数据存在structured DB里,而更多的数据放在云上的 NoSQL DB里.

    下面是两种NoSQL类型的数据库

      

    Neo4j - graph db

    Cassandra - key value db

    Week 2

    big data 的特征可以用几个V来概括.

    Volume - Scale of data

    Velocity (=Speed) - Analysis of streaming data (数据产生快,存储快,处理快)

    Variety - Different forms of data

    Veracity (=Quality) - Uncertainty of data

    Valence - Connectness of big data in the forms of graphs

      

      

    Getting value out of big data: 分析 big data, 形成 insight, 进而转化为 Action.  

    一个data stientist 应该具有相关的 technical skills, bussiness skills 和 soft skills, 并且因为需要的技能很多,最好形成团队来做一件事情.

    Buiding a big data strategy:

      

    strategy 要成功,需要管理层的支持,一个多技能的团队,相应的培训,一个测试idea 的mini lab, 移除存取数据的障碍

    数据科学的5个P

      

    Steps in the data science process

      

    1. 获取原数据

      从哪里获取,通过什么技术?

      数据有结构化和非结构化的,来自不同来源. 结构化数据可以通过SQL 读取. 来自文件的data 可以通过Python等脚本语言读取. 远程数据(格式可能是xml, html, json ) 通过web service (rest, soap, web socket) 读取. 非结构化数据可以通过非结构数据库提供的API或者web service 来读取 (如下)

      

       

    2. 准备数据 

      2.1 Explore data  - understand your data (分析correlation, 画图表)

      2.2 Pre-process (clean, integrate, package)  :

          Clean

          Transform (Scaling, feature selection, Dimensionality Reduction)

    3. 分析数据 (选分析技术,创建model)

        要分析具体是什么问题然后选取对应的分析技术,比如,regression, classification, clustering, graph analytics, association analysis

    4. 报告分析结果

      报告什么内容,用什么技术 (R, Python 都有很好的画图功能)

    5. Action  - Turn insight into action

    转载请注明出处 http://www.cnblogs.com/mashuai-191/
  • 相关阅读:
    关联分析(Association analysis)
    Django简介
    YAML快速入门
    YAML 在Python中的应用
    抓包工具、日誌抓取、弱網測試
    实现轮询
    Dubbo-从入门到深入
    Spring Boot
    小程序自动生成图片的标签
    小程序上传图片的大坑
  • 原文地址:https://www.cnblogs.com/mashuai-191/p/9469043.html
Copyright © 2020-2023  润新知