• python数据科学导论--读书笔记01


    1、大数据是数据集的总称,传统管理技术很难处理大型或复杂数据。大数据具有四大特点:高速,多样化,体积大和准确。

    2、数据科学是使用方法来分析由小数据集组成的庞大的大数据;

    3、尽管数据科学流程不是线性的,但可分为以下步骤:

      a、设置研究目标;

      b、检索数据;

      c、数据准备;

      d、数据探索;

      e、数据建模;

      f、展示与自动化

    4、大数据技术不仅仅是Hadoop。它有许多不同技术组成,可以分为以下几类:

      a、文件系统;

      b、分布式编程框架;

      c、数据集成;

      d、数据库;

      e、机器学习;

      f、安全;

      g、工作流;

      h、基准测试;

      i、系统部署;

      j、服务开发

    5、并不是每个大数据类别都需要数据科学家利用大量的数据。他们主要关注文件系统、分布式编程框架、数据库和机器学习。他们确实接触到其他部分,但这些都是其他职业领域。

    6、数据可以有不同的形式。主要有:

      a、结构和数据;

      b、非结构化数据;

      c、自然语言数据;

      d、计算机数据;

      e、图类数据;

      f、流数据’

  • 相关阅读:
    JS,JQuery的扩展方法
    Listbox简单用法
    Button模板,样式
    WPF开发经验
    弹出窗体主体实现事件
    从一知半解到揭晓Java高级语法—泛型
    深入理解Java之装箱与拆箱
    探究 — 二叉搜索树
    深入理解二叉树(超详细)
    二分查找及其变种算法
  • 原文地址:https://www.cnblogs.com/mingshengling/p/7866494.html
Copyright © 2020-2023  润新知