• 数据分析


    数据分析是什么

    数据就是信息,而数据分析就是可以让我们发挥这些信息功能的重要手段。

    "数据是21世纪的石油"  --- 来自一位阿里P7

    数据分析能干什么

    对于数据分析能干什么其实我们可以简单的举几个例子:

    1、淘宝可以观察用户的购买记录、搜索记录以及人们在社交媒体上发布的内容选择商品推荐

    2、股票可以根据相应的数据选择买进卖出

    3、今日头条可以将数据分析应用到新闻推送排行算法当中

    4、爱奇艺可以为用户提供个性化电影推荐服务

    其实数据分析不仅可以完成像以上这样的推荐系统,在制药行业也可运用数据分析来预测什么样的化合物更有可能制成高效药物等

    所以说数据分析绝对是未来所有公司不可或缺的岗位,目前社会上获取数据方式太多了,这么多的数据,只要我们拥有数据分析的技能,绝对可以应付任何岗位上的工作。

    为什么利用Python进行数据分析

    • 1、Python的代码语法简单易学
    • 2、Python可以很容易的整合C、C++等语言的代码
    • 3、Python有大量用于科学计算的库
    • 4、Python不仅可以用于研究和原型构建,同时也适用于构建生产系统

    数据分析过程概述

    • 提出问题

    在真正的工作场景下,往往我们需要的处理的是多个庞大的数据集还有可能是类型完全不同的数据,那这个时候一个准确的问题就可以让我们聚集与问题相关的那部分数据,为后续的分析操作提供一个明确的方向,帮助我们得到一个有意义的结论。

    • 整理数据

    整理数据主要分为三步:

    (1). 收集数据

    通过多种途径拿到数据,导入到Jupyter Notebook

    (2)、评估数据

    这一步主要是需要找出数据是否存在质量或者结构等方面的问题

    (3)、清理数据

    通过修改、替换、删除等方式保证数据质量高、结构好

    • 探索性数据分析

    在这一步骤主要可以探索并且扩充数据

    • 得出结论

    在进行完探索性数据分析之后肯定会得出一个结果或者说是结论,这样我们就可以根据这样一个结论进行相应的操作,就比如说分析股票数据得到那个大盘趋势好可以选择买进,又或者说类似于万达这样的大型商场可以分析那种类型的商品会比较受用户的欢迎,以便针对性的存货。但是具体的操作可能就需要用到机器学习或者推断统计学来实现,这个就与数据分析不一样了

    • 传达结果

    分析的能力有多强,分析的价值就有多大。

    这一步主要是向其他人证明你发现的见解以及传达意义

    常用库简介

    Numpy

    Numpy是Numerical Python的简写,主要可以用来做Python数值计算。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。

    • 快速、高效的多维数组对象ndarray  
    • 基于元素的数组计算以及直接对数组执行数学运算的函数
    • 用于读写硬盘上基于数组的数据集的工具
    • 线性代数运算、傅里叶变换,以及随机数生成
    • 用于将C、C++、Fortran代码集成到python的工具

     Pandas

    Pandas是我们进行数据分析的一个主要工具。它所包含的数据结构和数据处理工具的设计使得Python中进行数据清洗和分析非常快捷。pandas一般也是和其他数值计算工具一起使用的,支持大部分Numpy语言风格的数组计算。pandas和numpy最大的区别就是pandas是用来处理表格型或者异质性数据的,而Numpy则刚好相反,它更适合处理同质型的数值类数组数据

    matplotlib

    matplotlib是最流行的用于绘制数据图表的python库。

    Scipy

    Scipy是科学计算领域针对不同标准问题域的包集合。提供了强大的科学计算方法(矩阵分析、信号分析、数理分析等)

    常用编辑工具

     IPython

    >: pip install ipython

     ython是一个加强版的Python解释器

     Jupyter notebook

    >: pip install jupyter

     Jupyter notebook是一种基于Web的代码笔记本,最初也是源于IPython项目

    • jupyter使用

    快捷键:
    
    运行当前代码并选中下一个单元格 shift+enter
    
    运行当前的单元格 crtl + enter
    
    绿色: 编辑模式 蓝色: 命令行模式
    
    在单元格的上方添加一个单元格 , 按esc进入命令行模式,接下来按 a (above) 添加
    
    在单元格的上方添加一个单元格 , 按esc进入命令行模式,接下来按 b (below) 添加
    
    删除一个单元格, 按esc进入命令行模式, 接下来,按 dd(delete) 删除
    
    代码和markdown的切换, 按esc进入命令行模式, 接下来,按 m 切换
  • 相关阅读:
    我对“错排问题”的理解
    洛谷P1144 最短路计数 题解 无权图的最短路计数(广搜)
    洛谷P1714 切蛋糕 题解 单调队列
    洛谷P6040 「ACOI2020」课后期末考试滑溜滑溜补习班 题解 单调队列优化DP
    POJ2559 Largest Rectangle in a Histogram 题解 单调队列/单调栈 (直方图的最大矩形面积)
    洛谷P2947 向右看齐Look Up 题解 单调栈/单调队列
    洛谷P1725 琪露诺 题解 单调队列优化DP入门题
    洛谷P1886 滑动窗口 题解 单调队列
    洛谷P2952 牛线Cow Line 题解 双端队列deque的使用
    多线程交互,访问数据,如果访问到了就不访问了,怎么 避免重读?
  • 原文地址:https://www.cnblogs.com/waller/p/11970683.html
Copyright © 2020-2023  润新知