• 第一章Python数据分析概述


    第一章Python数据分析概述

    1、理解数据

    2、认识数据分析

    3、数据分析工具Python

    4、重要的Python数据分析类库

    5、集成开发环境和文本编辑器

    6、使用Jupyter Notebook

     

    第1节:理解数据

    1、数据有结构化数据、半结构化数据和非结构化数据

    结构化数据有: 1、表格型数据 2、多维数组(矩阵) 3、通过关键列相互联系的多个表(如sql中的主外键) 4、间隔平均或不平均的时间序列

     

    第2节:认识数据分析

    1、数据分析是数学与计算机科学结合的产物

    2、数据分析方法

    • 描述型分析
    • 诊断型分析
    • 预测型分析
    • 指令型分析

    3、数据分析的一般流程

    1. 需求分析
    2. 数据获取
    3. 数据预处理
    4. 数据分析与建模
    5. 模型评价和优化
    6. 部署
     

    第3节:数据分析工具Python

    1、目前主流的数据分析语言有R、Python

    功能对比:

    • Python与R相比速度更快
    • Python的工程化应用强于R
    • Python的应用场景大于R
    • Python处理大数据的速度快于R
    • 统计理论研究、前沿科学研究,R比Python更胜一筹

    应用场景对比

    • 使用Python进行数据预处理、数据清洗,特别是针对非结构化的数据,具有极强的灵活性,能够从自由文本、网站等提取信息,便于图像挖掘和为分析准备数据
    • 使用R进行分析、数据可视化与建模:
      • 为分析提供了极好的灵少性
      • R使你在分析时候更容易思考
      • 由于R有着十分活跃的统计和数学社区

    2、Python的优势

    • 优雅、简单、明确
    • 强大的标准库
    • 良好的可扩展性
    • 胶水语言(开源、可移植、可嵌入到C等程序中)
     

    第4节:重要的Python数据分析类库

    1、NumPy(Numerical Python)是Python科学计算的基础包

    • 提供了快速高效的多维数组对象ndarray
    • 提供了对数组执行元素级计算以及直接对数组执行数学运算的函数
    • 提供了读写硬盘上基于数组的数据集的工具
    • 提供了线性代数运算、傅里叶变换、随机数生成功能
    • 提供了成熟的C API,用于Python插件和原生C、C++、Fortran代码访问NumPy的数据结构和计算工具

    • NumPy为Python提供快速的数组处理能力

    • NumPy在数据分析方面作为在算法和库之间传递数据的容器
    • 对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多
    • 由低级语言编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作

    2、pandas是Python的一个数据分析包(最初由金融数据分析工具开发而来)

    • pandas为时间序列分析提供了很好支持
    • pandas是基于NumPy的一种工具,是为了解决数据分析任务而创建的
    • pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具
    • pandas提供了大量能使我们快速便捷处理数据的函数和方法
    • pandas是使Python成为强大而高效数据分析环境的重要因素之一

    3、Matplotlib是Python的一个2D绘图库

    • 它以各种硬拷贝格式和跨平台的交互式环境,生成用于出版质量级别的图形
    • Matplotlib操作简单,几行代码就可以生成折线图、直方图、功率谱图、条形图、错误图、散点图等
    • 提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图

    4、SciPy是一组专门解决科学计算中各种标准问题域的包的集合

    5、scikit-learn是最为流行的Python的通用机器学习工具包

    6、stats models是一个统计分析包,包含经典统计学和经济计算学的算法

     

    第5、6节:集成开发环境和文本编辑器及使用Jupyter Notebook

    • Tab补全
    • shit+enter 运行代码
    • 加粗 节能
    • 斜体 斜体
    • 表格制作
    • 导出方式
  • 相关阅读:
    JAVA实现AES的加密和解密算法
    工厂方法模式(Factory Method)
    Java开发23种设计模式
    读取Maven项目下resources目录下的配置文件(properties为例)
    迭代解析JSON简单实例
    Tomcat8.0配置JNDI多数据源
    SpringMVC DispatcherServlet-------视图渲染过程
    【C/C++】求解线性方程组的雅克比迭代与高斯赛德尔迭代
    【C/C++】实现牛顿迭代
    【C/C++】查找(一):静态查找表
  • 原文地址:https://www.cnblogs.com/sruzzg/p/13286159.html
Copyright © 2020-2023  润新知