• python 3 科学计算之pandas入门(二)


    一.通用函数:快速的元素级数组函数

    通用函数(ufunc)是一种对ndarray中的数据执行元素级运算的函数。我们可以将其看作简单函数(接受一个或多个标量,并产生一个或多个标量)的矢量化包装器。

    许多通用函数都是简单的元素级变体,如sqrt和exp:

    import numpy as np
    arr=np.arange(10)
    print(np.sqrt(arr))
    
    ========================================
    [0.         1.         1.41421356 1.73205081 2.         2.23606798
     2.44948974 2.64575131 2.82842712 3.        ]
    ========================================
    
    print(np.exp(arr))
    
    ========================================
    [1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
     5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
     2.98095799e+03 8.10308393e+03]
    ========================================
    下表列出了常用的一元ufunc和二元ufunc
    一元ufunc
    函数 
    说明
    abs、fbs
    计算整数、浮点数或复数的绝对值。对于非复数值,可以使用更快的fbs
    sqrt
    计算各元素的平方根,相当于arr**0.5
    square
    计算各元素的平方,相当于arr**2
    exp
    计算各元素的指数e
    log、log10、log2、log1p  分别为自然对数(底数为e)、底数为10的log、底数为2的log、log(1+x)
    sign   计算各元素的正负号:1(正数)、0(零)、-1(负数)
    ceil  计算各元素的ceiling值,即大于等于该值的最小整数
    floor 计算各元素的floor值,即小于等于该值的最大整数
    rint  将各元素值四舍五入到最接近的整数,保留dtype
    modf   将数组的小数和整数部分以两个独立数组的形式返回
    isnan   返回一个表示"哪些值是NaN(这不是一个数字)"的布尔型数组
    isfinite、isinf   分别返回一个表示"哪些元素是有穷的(非inf,非NaN)"或"哪些元素是无穷的"的布尔型数组
    cos、cosh、sin、sinh、tan、tanh 普通型和双曲型三角函数
    arccos、arccosh、arcsin、arcsinh、arctan、arctanh 反三角函数
    logical_not 计算各元素notx的真值。相当于-arr




























    二元ufunc
    函数 说明
    add 将数组中对应的元素相加
    subtract  从第一个数组中减去第二个数组中的元素
    multiply  数组元素相乘
    divide、floor_divide 除法或向下圆整除法(丢弃余数)
    power  对第一个数组中的元素A,根据第二个数组中的元素B,计算A的B次方
    maximum、fmax 元素级的最大值计算。fmax将忽略NaN
    minimum、fmin 元素级的最小值计算。fmin将忽略NaN
    mod 元素级的求模计算(除法的余数)
    copysign 将第二个数组中的值的符号复制给第一个数组中的值
    greater、greater_equal、
    less、less_equal、equal、not_equal
    执行元素级的比较运算,最终产生布尔型数组。相当于中缀运算符>、>=、<、<=、==、!=
    logical_and、logical_or、logical_xor 执行元素级的真值逻辑运算。相当于中缀运算符&、|、^



















    二.利用数组进行数据处理

     Numpy数组使我们可以将许多种数据处理任务表述为简洁的数组表达式(否则需要编写循环)。用数组表达式代替循环的做法,通常被称为矢量化。一般来说矢量化数组运算要比等价的纯Python方式快上一两个数量级(甚至更多),尤其是各种数值计算。 

    假设我们想在一组值(网格型)上计算函数sqrt(x^2+y^2),np.meshgrid函数接受两个一维数组,并产生两个二维矩阵(对应于两个数组中所有的(x,y)对)

    #coding:utf-8
    
    import matplotlib.pyplot as plt
    import numpy as np
    
    points=np.arange(-5,5,0.01) #1000个间隔相等的点
    xs,ys=np.meshgrid(points,points)
    print(xs)
    print(ys)
    
    
    [[-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
     [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
     [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
     ...
     [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
     [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
     [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]]
    ========================================
    [[-5.   -5.   -5.   ... -5.   -5.   -5.  ]
     [-4.99 -4.99 -4.99 ... -4.99 -4.99 -4.99]
     [-4.98 -4.98 -4.98 ... -4.98 -4.98 -4.98]
     ...
     [ 4.97  4.97  4.97 ...  4.97  4.97  4.97]
     [ 4.98  4.98  4.98 ...  4.98  4.98  4.98]
     [ 4.99  4.99  4.99 ...  4.99  4.99  4.99]]

    现在把这两个数组当做两个浮点数那样编写表达式即可

    z = np.sqrt(xs ** 2 + ys ** 2)
    print(z)
    
    ========================================
    [[7.07106781 7.06400028 7.05693985 ... 7.04988652 7.05693985 7.06400028]
     [7.06400028 7.05692568 7.04985815 ... 7.04279774 7.04985815 7.05692568]
     [7.05693985 7.04985815 7.04278354 ... 7.03571603 7.04278354 7.04985815]
     ...
     [7.04988652 7.04279774 7.03571603 ... 7.0286414  7.03571603 7.04279774]
     [7.05693985 7.04985815 7.04278354 ... 7.03571603 7.04278354 7.04985815]
     [7.06400028 7.05692568 7.04985815 ... 7.04279774 7.04985815 7.05692568]]
    plt.imshow(z, cmap=plt.cm.gray)
    plt.colorbar()
    plt.title("Image plot of $sqrt{x^2+y^2}$ for a grid of values")
    plt.show() #显示图形

    1.将条件逻辑表述为数组运算

    #numpy.where函数是三元表达式x if condition else y 的矢量化版本。假设我们有一个布尔数组和两个值数组
    xarr=np.array([6.1,6.2,6.3,6.4,6.5])
    yarr=np.array([8.1,8.2,8.3,8.4,8.5])
    cond=np.array([True,False,True,False,True])
    #现在我们想根据cond中的值选取xarr和yarr的值:当cond为True,选取xarr的值,否则选取yarr的值。列表推导式的做法如下:
    result=[(x if z else y) for x,y,z in zip(xarr,yarr,cond)]
    print(result)
    #这样做有几个问题,第一:它对大数组的处理速度不是很快(因为所有工作都是纯python完成的),第二:无法用于多维数组。
    #若用np.where,则可以将该功能写的非常简洁

    result=np.where(cond,xarr,yarr)
    print(result)
    #np.where 的第二个和第三个参数不必是数组,它们都可以是标量值。在数据分析工作中,where通常用于根据另一个数组产生一个新的数组。
    #假设有一个随机数组组成的矩阵,我们希望将所有正值替换为2,所有负值替换为-2,若利用np.where,则会非常简单

    arr=np.random.randn(4,4)
    print(arr)
    new_arr=np.where(arr>0,2,-2)
    # print(new_arr)
    # print(np.where(arr>0,2,arr)) #只将正值设置为2
    # print(np.where(arr<0,0,arr))#只将负值设置为0
    #总结:
    #np.where 有两种用法:
    #第一种用法np.where(conditions,x,y) if (condituons成立):数组变x else:数组变y,例子如上
    #第二种用法np.where(conditions)相当于给出数组的下标
    #一维数组
    x = np.arange(16)
    print(x[np.where(x>5)])
    #输出:(array([ 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], dtype=int64),)
    #二维数组
    x = np.arange(16).reshape(4,4)
    print(x)
    print(np.where(x>5)) #这里的坐标是前面的是一维的坐标,后面是二维的坐标

    2.数学和统计方法

    可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。

    arr=np.random.randn(5,4)
    print(arr)
    print(arr.mean())#axis 不设置值,对 m*n 个数求均值,返回一个实数
    print(arr.sum())
    print(arr.mean(axis=1)) #axis =1 :对各行求均值,返回 m 个元素的一维数组
    print(arr.mean(axis=0)) #axis = 0:对各列求均值,返回 n个元素的一维数组

    #其他如cumsum、cumprod之类的方法则不聚合,而是产生一个由中间结果组成的数组
    arr1=np.array([[1,2,3],[4,5,6]])
    print(arr1.cumsum(0)) #每列对应元素累计相加
    print(arr1.cumsum(1)) #每行对应元素累计相加
    print(arr1.cumprod(0))#每列对应元素累计相乘
    print(arr1.cumprod(1)) #每行对应元素累计相乘

    基本数组统计方法

    方法
    说明
    sum
    对数组中全部或某轴向的元素求和。零长度的数组的sum为0
    mean
    算术平均值。零长度的数组的mean为NaN
    std、var
    分别为标准差和方差,自由度可调(默认为n)
    max、min
    最大值和最小值
    argmin、argmax
    分别为最小和最大元素的索引
    cumsum
    所有元素的累计和
    cumprod
    所有元素的累计积



    #排序

    #跟Python内置的列表类型一样,Numpy数组也可以通过sort方法排序
    arr=np.array([[1,4,2],[7,2,6]])
    print(arr.sort(0)) #对0轴排序,每列从小到大排序
    print(arr)
    print(arr.sort(1)) #对1轴排序,每行从小到大排序
    print(arr)
     
    #唯一化以及其他的集合逻辑

    #Numpy提供了一些针对一维ndarray的基本集合运算。最常用的可能要数np.unique了,它用于找出数组中的唯一值并返回已排序的结果
    names=np.array(['Kobe','Calvin','Michale','James','Calvin','Kobe','Kobe','Calvin'])
    print(np.unique(names))
    numbers=np.array([2,3,8,5,8,8,24,1,6,3])
    print(np.unique(numbers))

    Numpy中的集合函数如下表:
    方法
    说明
    unique(x) 
    计算x中的唯一元素,并返回有序结果
    intersect1d(x,y)
    计算x和y中的公共元素,并返回有序结果
    union1d(x,y)
    计算x和y的并集,并返回有序结果
    in1d(x,y) 
    得到一个表示"x的元素是否包含于y"的布尔型数组
    setdiff1d(x,y)
    集合额差,即元素在x中且不在y中
    cumprod
    所有元素的累计积



  • 相关阅读:
    java基础(8)---接口和lambda
    asp.net ashx处理程序中switch case的替代方案总结
    C# 委托(delegate)、泛型委托和Lambda表达式
    js判断浏览器是否安装或启用了flash的方法总结
    ASP.NET登录验证码解决方案
    C#读取匿名对象的属性值的方法总结
    C#中char[]与string之间的转换;byte[]与string之间的转化
    【Sublime】Sublime 常用插件
    js ajax设置和获取自定义header信息的方法总结
    .Net 通过设置Access-Control-Allow-Origin来实现跨域访问
  • 原文地址:https://www.cnblogs.com/a-ant/p/11640303.html
Copyright © 2020-2023  润新知