• Numpy学习笔记(二)


    最近一直在学HTML5和CSS3,Numpy的东西都有些生疏,那本书是已经看完了的,紧跟着相关的代码也都敲了一遍,还是发现了一些问题,因为这样的学习方式,总感觉太被动,紧紧跟着示例代码,缺少了整体观,即使你现在问我Numpy可以处理什么问题,我还是回答不出。所以,有必要回头重来一遍,再一次审视代码背后的意义,写博客真的是一个很不错的方式,毕竟,如果你不懂,写出来的文字必然也是混乱的。

    那,下面记录一下Numpy学习笔记(二)

    Example1

    文件读写:数据不应该仅仅存在内存里,应该及时保存在硬盘上,以文件的形式

    # -*- coding:utf-8 -*-

    # 导入numpy库

    import numpy as np

     

    # 文件读写

    # 先创建一个单位矩阵

    a = np.eye(2) # numpy自带的eye方法

    print a

    # 使用savetxt函数保存

    np.savetxt("D:LearnCodepythonexerciseeye.txt", a)

    结果如下:

    查看相关文件夹,已经出现eye.txt,打开

    Example2

    CSV文件:逗号分隔值文件,很少听见,但经常遇见,用Excel打开的效果几乎与.xls文件一模一样

    Numpy是用来处理数据的,而CSV是用来存储数据的,看起来渊源很深呢。

    先来看一个CSV文件

    里面记录的是苹果公司的股票,第一列是股票代码,第二列是日期,第三列为空,下面依次是开盘价、最高价、最低价和收盘价和成交量

    接下来我们将收盘价和成交量分别载入数组

    # CSV文件

    # delimiter定义分隔符,默认是空格;usecols定义选取的;unpack默认False,解包

    c, v = np.loadtxt('D:LearnCodepythonexercisedata.csv',

    delimiter=",", usecols=(6, 7), unpack=True)

    print u"收盘价:", c

    print u"成交量:", v

    看结果:

    并不困难

    Example3

    各种平均值的求法:书里面列举了三个,成交量加权平均价格、算术平均值、时间加权平均价格

    成交量平均价格(VWAP)表示成绩量越大,该价格所占的权重就越大

    算术平均值就是权重为1

    时间加权平均价格(TWAP)表示日期越近的价格所占比重越大

    # 成交量平均价格

    c, v = np.loadtxt("D:LearnCodepythonexercisedata.csv",

    delimiter=",", usecols=(6, 7), unpack=True)

    # 计算以成交量加权的价格

    vwap = np.average(c, weights=v)

    print "VWAP:", vwap

     

    # 算术平均价格

    mean = np.mean(c)

    print "Mean:", mean

     

    # 时间加权平均价格

    # 先构造一个时间序列

    t = np.arange(len(c))

    twap = np.average(c, weights=t)

    print "TWAP:", twap

    结果如下:

    Example4

    最大值与最小值

    # 载入每日最高价和最低价的数据

    h, l = np.loadtxt("D:LearnCodepythonexercisedata.csv",

    delimiter=",", usecols=(4, 5), unpack=True)

    # 直接调用max()和min()函数

    print "highest:", np.max(h)

    print "lowest:", np.min(l)

     

    # ptp函数可以计算取值范围

    print "Spred high price:", np.ptp(h)

    print "Spred low price:", np.ptp(l)

    结果如下:

    无论怎么讲都是相当便捷的

    Example5

    简单统计分析,这里主要是中位数、和方差

    # 简单统计分析

    c = np.loadtxt("D:LearnCodepythonexercisedata.csv",

    delimiter=",", usecols=(6, ), unpack=True)

    # 寻找中位数

    print "median:", np.median(c)

    # 利用排序来检验正确与否

    sorted_c = np.msort(c)

    print "sorted_c:", sorted_c

    N = len(c)

    if N%2 != 0:

    middle = sorted_c[N/2]

    else:

    middle = (sorted_c[N/2] + sorted_c[N/2-1])/2

    print "middle:", middle

     

    # 计算方差

    variance = np.var(c)

    print "variance:", variance

    结果如下:

    所需要的无非就只是调用个函数那么简单!

    Example6

    计算股票收益率,分成这么几个(都是经济学的东西,看看就好,重点还是看numpy如何使用上):简单收益率、对数收益率和波动率

    # 股票收益率

    c = np.loadtxt("D:LearnCodepythonexercisedata.csv",

    delimiter=",", usecols=(6, ), unpack=True)

    # 简单收益率

    # diff函数返回相邻数组元素差值组成的数组

    diff = np.diff(c)

    print "diff:", diff

    # 收益率等于这一天与前一天的差值除以前一天的值

    returns = diff/c[:-1]

    print "returns:", returns

    # 计算收益率的标注差

    print "Standard deviation:", np.std(returns)

     

    # 对数收益率

    logreturns = np.diff(np.log(c))

    print "logreturns:", logreturns

    print "Standard deviation:", np.std(logreturns)

     

    # 计算收益率为正值的情况

    posretindices = np.where(returns > 0)

    print "Indices with positive returns:", posretindices

     

    # 波动率(对数收益率的标准差除以其均值,再除以交易日倒数的平方根,交易日通常取252天)

    annual_volatility = np.std(logreturns)/np.mean(logreturns)/np.sqrt(1.0/252)

    print "Annual volatility:", annual_volatility

    print "Month volatility:", annual_volatility * np.sqrt(1.0/12)

    结果如下:

    Example7

    日期分析:分析CSV文件,会看到有一列日期数据,格式为dd-mm-yyyy,Python自带的时间处理模块,可以很自如地处理,而Numpy本身是无法处理这样的数据的,所以在解包的时候要先编写一个转换函数,然后将这个函数传递到loadtxt里的converters参数里

    # 时间处理

    # 先导入时间模块

    import datetime

    # 编写转换函数

    def datetostr(s):

    truetime = datetime.datetime.strptime(s, '%d-%m-%Y').weekday()

    return truetime

    # 开始读取数据,并添加converters参数

    dates, close = np.loadtxt("D:LearnCodepythonexercisedata.csv",

    delimiter=",", usecols=(1, 6), converters={1: datetostr},

    unpack=True)

    print "Dates:", dates

    # 创建一个包含五个元素的数组

    averages = np.zeros(5)

    # where会根据条件返回满足条件的元素索引,take可以从索引中取出数据

    for i in range(5):

    indices = np.where(dates == i)

    prices = np.take(close, indices)

    avg = np.mean(prices)

    print "Day", i, "prices", prices, "Average", avg

    averages[i] = avg

    结果是这样的:

    这个练习有些困难,不仅使用到了Python里的datetime模块,还涉及到了loadtxt转换参数converters的使用,更不必说where和take了

    Example8

    Data.csv文件里,每一行代表每一天,如果数据量很大,我们可以考虑将它们进行压缩,按周进行汇总

    # 周汇总

    import datetime

    def datetostr(s):

    truetime = datetime.datetime.strptime(s, '%d-%m-%Y').weekday()

    return truetime

    dates, open, high, low, close = np.loadtxt("D:LearnCodepythonexercisedata.csv",

    delimiter=",", usecols=(1, 3, 4, 5, 6), converters={1: datetostr},

    unpack=True)

    # 为了方便计算,仅取前三周数据

    dates = dates[:16]

     

    # 寻找第一个星期一

    first_monday = np.ravel(np.where(dates == 0))[0] # where返回的是个多维数组,需要展平

    print "First Monday", first_monday

    # 寻找最后一个星期五

    last_friday = np.ravel(np.where(dates == 4))[-1]

    print "Last Friday"

     

    weeks_indices = np.arange(first_monday, last_friday+1)

    print "Weeks indices initial", weeks_indices

     

    weeks_indices = np.split(weeks_indices, 3)

    print "Weeks indices after split", weeks_indices

     

    # 为了后面的apply_along_axis

    def summarize(a, o, h, l, c):

    monday_open = o[a[0]]

    week_high = np.max(np.take(h, a))

    week_low = np.min(np.take(l, a))

    friday_close = c[a[-1]]

    return ("APPL", monday_open, week_high, week_low, friday_close)

    # apply_along_axis内涵很丰富

    weeksummary = np.apply_along_axis(summarize, 1, weeks_indices, open, high, low, close)

    print "Week summary", weeksummary

    # savetxt参数其实有很多

    np.savetxt("D:LearnCodepythonexerciseweeksummary.csv", weeksummary, delimiter=",", fmt="%s")

    看结果:

    打开文件夹,查看weekssummay.csv文件

    Example9

    真实波动幅度均值(ATR),这里取20天的数据

    # 真实波动幅度均值

    h, l, c = np.loadtxt('D:LearnCodepythonexercisedata.csv', delimiter=',', usecols=(4, 5, 6), unpack=True)

     

    N = 20

    # 切片

    h = h[-N:]

    l = l[-N:]

     

    print "len(h)", len(h), "len(l)", len(l)

    print "Close", c

    # 计算前一日的收盘价

    previousclose = c[-N-1:-1]

     

    print "len(previousclose)", len(previousclose)

    print "Previous close", previousclose

    # maximum函数可以选择出每个元素的最大值

    truerange = np.maximum(h-l, h-previousclose, previousclose-l)

     

    print "True range", truerange

    # zeros函数初始化数组为0

    atr = np.zeros(N)

     

    atr[0] = np.mean(truerange)

     

    for i in range(1, N):

    atr[i] = (N-1)*atr[i-1] + truerange[i]

    atr[i] /= N

     

    print "ATR", atr

    结果是这样的

    Example10

    简单移动平均线

    这里会涉及到一个重要的函数:consolve函数,即卷积函数。卷积的概念百度百科上是这样解释的:卷积是两个变量在某范围内相乘后求和的结果。我在知乎上看到的一个答案,说的更简洁,即加权求和

    # 简单移动平均线

    # N是移动窗口的大小

    N = 5

    # 权重是个平均值

    weights = np.ones(N) / N

    print "Weights", weights

     

    c = np.loadtxt('D:LearnCodepythonexercisedata.csv', delimiter=',', usecols=(6, ), unpack=True)

    # 要从卷积运算中取出与原数组重叠的区域

    sma = np.convolve(weights, c)[N-1:-N+1]

    # 生成一个时间序列

    t = np.arange(N-1, len(c))

    # 用matplotlib绘图

    plt.plot(t, c[N-1:],'b-', lw=1.0)

    plt.plot(t, sma, 'r-', lw=2.0)

    plt.show()

    结果是这样的

    Matplotlib的绘图效果相当不错,这里还可以添加一些参数

    plt.xlabel("Date")

    plt.ylabel("Close Price")

    plt.title(u"Simple Moving Average")

    plt.annotate('before convolve', xy=(12.8, 363), xytext=(15, 363),

    arrowprops=dict(facecolor='black',shrink=0.005))

    plt.annotate('after convolve', xy=(15, 358), xytext=(17, 358),

    arrowprops=dict(facecolor='black',shrink=0.005))

    Example11

    指数移动平均线

    指数移动平均线使用的权重是指数衰减的,其他的与Example10一样

    # 指数移动平均线

    x = np.arange(5)

    # 对x求指数,exp函数

    print "Exp", np.exp(x)

    # linspace函数实现等距分隔

    print "Linspace", np.linspace(-1, 0 ,5)

    N = 5

    # 上面是两个示范,下面才是真的

    weights = np.exp(np.linspace(-1, 0, N))

    weights /= weights.sum()

    print "Weights", weights

     

    c = np.loadtxt('D:LearnCodepythonexercisedata.csv', delimiter=',', usecols=(6, ), unpack=True)

    ema = np.convolve(weights, c)[N-1:-N+1]

    t = np.arange(N-1, len(c))

    plt.plot(t, c[N-1:],'b-', lw=1.0)

    plt.plot(t, ema, 'r-', lw=2.0)

    plt.show()

    结果如下

    与上一幅图略有不同

    Example12

    布林带

    股票市场的一种常用指标,基本形态是由三条轨道线组成

    中轨:简单移动平均线

    上轨:比简单移动平均线高两倍标准差的距离,标准差是简单移动平均线的标准差

    下轨:比简单移动平均线低两倍标准差的距离,标准差是简单移动平均线的标准差

    # 绘制布林带

    N = 5

    # 计算权重

    weights = np.ones(N)/N

     

    c = np.loadtxt('D:LearnCodepythonexercisedata.csv', delimiter=',', usecols=(6, ), unpack=True)

    # 简单移动平均线,注意切片

    sma = np.convolve(weights, c)[N-1:-N+1]

    deviation = []

     

    # 标准差为计算简单移动平均线所用数据的标准差

    for i in range(0, len(c)-N+1):

    dev = c[i:i+N]

     

    averages = np.zeros(N)

    # fill函数可以将数组元素赋为单一值,平均值恰好为sma数组里的元素

    averages.fill(sma[i])

    dev = dev-averages

    dev = dev ** 2

    dev = np.sqrt(np.mean(dev))

    deviation.append(dev)

     

    # 书上的代码

    '''

    for i in range(N-1, len(c)):

    if i+N<len(c):

    dev = c[i:i+N]

    else:

    dev = c[-N:]

     

    averages = np.zeros(N)

    averages.fill(sma[i-N-1])

    dev = dev-averages

    dev = dev ** 2

    dev = np.sqrt(np.mean(dev))

    deviation.append(dev)

    '''

     

    deviation = 2 * np.array(deviation)

    # 每个sma的元素应对应一个标注差

    print len(deviation), len(sma)

    upperBB = sma + deviation

    lowerBB = sma - deviation

     

    c_slice = c[N-1:]

    # 检验数据是否全都落入上轨和下轨内

    between_bands = np.where((c_slice<upperBB)&(c_slice>lowerBB))

     

    print lowerBB[between_bands]

    print c[between_bands]

    print upperBB[between_bands]

    between_bands = len(np.ravel(between_bands))

    print "Ratio between bands", float(between_bands)/len(c_slice)

     

    # 绘图,这个就比较简单了

    t = np.arange(N-1, len(c))

    plt.plot(t, c_slice, lw=1.0)

    plt.plot(t, sma, lw=2.0)

    plt.plot(t, upperBB, lw=3.0)

    plt.plot(t, lowerBB, lw=3.0)

    plt.show()

    结果如下:

    书上的代码略有不同,但我并没有看懂,而是照着自己的理解,根据布林带的规则写的,如果大家发现有什么问题,或者我的写法是错误的,希望能及时的提醒我,也好及时更改(*^_^*)

    Example13

    线性模型,Numpy里的linalg包是专门用来处理此类问题,今后还会接触

    # 用线性模型预测价格

     

    # 用于预测所取的样本量

    N = 5

     

    c = np.loadtxt("D:LearnCodepythonexercisedata.csv", delimiter=',', usecols = (6, ), unpack=True)

    # 取后N个数

    b = c[-N:]

    # 倒序

    b = b[::-1]

    print "b", b

     

    # 初始化一个N*N的二维数组A

    A = np.zeros((N,N), float)

    print "Zeros N by N", A

     

    # A[i]与b对应

    for i in range(N):

    A[i, ] = c[-N-1-i:-1-i]

     

    print "A", A

     

    # lstsq函数拟合数据,返回值包括系数向量、残差数组、A的秩以及A的奇异值

    (x, residuals, rank, s) = np.linalg.lstsq(A, b)

     

    print x, residuals, rank, s

     

    # x提供系数,dot点积即可预测下一次股价

    print np.dot(b, x)

    结果如下:

    实际查得下一个交易日收盘价为353.56,说明股票市场还是很不规律的

    Example14

    数组的修剪和压缩

    # 数组的修剪和压缩

     

    # clip返回一个修剪过的数组,小于等于给定最小值的设为给定最小值,反之亦然

    a = np.arange(5)

    print "a=", a

    print "Clipped", a.clip(1, 2)

     

    # compress返回一个给定筛选条件后的数组

    print "Compressed", a.compress(a>2)

    结果也是比较明显:

    Example15

    阶乘

    # 阶乘

    b = np.arange(1, 9)

    print "b=", b

    # 一个prod()函数即可,省略了循环

    print "Factorial", b.prod()

     

    # cumprod函数可以计算累计乘积

    print "Factorials", b.cumprod()

    看结果:

    总结:从这次的笔记中可以看到,Numpy的确是很大程度上拓展了Python的统计功能,很多时候你所需要做的无非只是写个函数名,直接调用即可,Matplotlib同时提供了个性化很强的绘图功能,两者集成就可以实现很好的数据可视化。当然,这里的几个例子无非只是抛砖引玉,接下来的学习之路还很漫长。

     

    源代码在这里:https://github.com/Lucifer25/Learn-Python/blob/master/Numpy/exercise2.py

     

    参考资料:http://docs.scipy.org/doc/numpy/reference/

    http://matplotlib.org/

    却道,此心安处是吾乡
  • 相关阅读:
    【原】Sql2005 实现递归
    asp.net core api路由及多语言切换的实现
    一条语句实现查询各类别前10条记录
    【转】javascript操作cookies 以及 正确使用cookies的属性
    php 文件POST上传的原理及实现
    css3对background的调整与增强
    浅议javascript 中继承模式 (javascript高级程序设计)
    递归和递推:javascript求斐波那契数列的尾递归方法(转载)
    python中xrange和range的异同
    [译] JavaScript核心指南(JavaScript Core) 【转】
  • 原文地址:https://www.cnblogs.com/lucifer25/p/5873082.html
Copyright © 2020-2023  润新知