python数据分析一
初识数据分析
数据分析的步骤
- 分析需要什么样的数据类型
- 根据目标搜寻数据
- 对数据进行整理
- 整理数据其实就是数据清洗
- 提炼和分析数据,得到结论
- 将数据可视化
开源,即开放源代码,英文是 open source,在编程圈是一个特别热的词。它指的是把源代码公开出去,让人们可以任意获取来学习、使用、修改和传播等。
numpy模块
numpy的array方法
import numpy as np
data = np.array([1,2,3])
print(data)
print(type(data))
[1 2 3]
<class 'numpy.ndarray'>
个人理解:
将一个[1,2,3]的列表传入到numpy的array()
方法中去,并生成一个ndarray对象。
numpy的01数组的生成方法
np.ones(n)
创建一个n位1数组
ones = np.ones(3)
print(ones)
#[1. 1. 1.]
ones = np.ones(3,dtype=int)
print(ones)
#[1 1 1]
ones = np.ones(3,dtype=float)
print(ones)
#[1. 1. 1.]
np.zeros(n)
创建一个n位0数组
ndarray的操作和方法
加减乘除(运算的两个ndarray对象中一一对应做相加减)
import numpy as np
data1 = np.array([9, 3, 5])
data2 = np.array([2, 4, 6])
print(data1 + data2)
print(type(data1+data2))
- 输出
[ 11 7 11]
<class 'numpy.ndarray'>
平均分
- 对象名.mean()
最大值
- 对象名.max()
最小值
- 对象名.min()
中位数
- np.median(数组名)
- 将一个数组传入到np的median的方法中去,并返回这个数组的中位数
总和
- 对象名.sum()
统计学概念
集中趋势
集中趋势所反映的是一组数据所具有的共同趋势,它代表了一组数据的总体水平。其常用指标有 平均数、中位数 和 众数。
特殊
如果出现极大偏离正常数据的异常数据,则将对这组数据实际理应反应的集中趋势造成可观的影响,从而影响实验结论。
离中趋势
离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势。其常用指标有 极差、方差 和标准差
极差
-
极大值减去极小值
-
对象名.ptp()
方差
-
每个值减去均值的平方和再除去数据的个数
-
对象名.var()
标准差
-
方差的平方根
-
对象名.std()
离中趋势
ndarray和一般列表
列表间只有加法操作,作用是将两个列表的元素合并在一起。而多维数组间可以进行加减乘除的四则运算,运算规则也很简单:将两个数组中对应位置的元素一一进行运算。
- ndarray对象相对于列表能支持更多的运算。