• pytorch中nn.RNN()总结


    nn.RNN(input_size, hidden_size, num_layers=1, nonlinearity=tanh, bias=True, batch_first=False, dropout=0, bidirectional=False)

    参数说明

      • input_size输入特征的维度, 一般rnn中输入的是词向量,那么 input_size 就等于一个词向量的维度
      • hidden_size隐藏层神经元个数,或者也叫输出的维度(因为rnn输出为各个时间步上的隐藏状态)
      • num_layers网络的层数
      • nonlinearity激活函数
      • bias是否使用偏置
      • batch_first输入数据的形式,默认是 False,就是这样形式,(seq(num_step), batch, input_dim),也就是将序列长度放在第一位,batch 放在第二位
      • dropout是否应用dropout, 默认不使用,如若使用将其设置成一个0-1的数字即可
      • birdirectional是否使用双向的 rnn,默认是 False
        注意某些参数的默认值在标题中已注明

    输入输出shape

    1. input_shape = [时间步数, 批量大小, 特征维度] = [num_steps(seq_length), batch_size, input_dim]
    2. 在前向计算后会分别返回输出隐藏状态h,其中输出指的是隐藏层在各个时间步上计算并输出的隐藏状态,它们通常作为后续输出层的输⼊。需要强调的是,该“输出”本身并不涉及输出层计算,形状为(时间步数, 批量大小, 隐藏单元个数);隐藏状态指的是隐藏层在最后时间步的隐藏状态:当隐藏层有多层时,每⼀层的隐藏状态都会记录在该变量中;对于像⻓短期记忆(LSTM),隐藏状态是⼀个元组(h, c),即hidden state和cell state(此处普通rnn只有一个值)隐藏状态h的形状为(层数, 批量大小,隐藏单元个数)

    代码:

    rnn_layer = nn.RNN(input_size=vocab_size, hidden_size=num_hiddens, )

    # 定义模型, 其中vocab_size = 1027, hidden_size = 256

    num_steps = 35

    batch_size = 2

    state = None# 初始隐藏层状态可以不定义

    X = torch.rand(num_steps, batch_size, vocab_size)

    Y, state_new = rnn_layer(X, state)

    print(Y.shape, len(state_new), state_new.shape)

    输出

    torch.Size([35, 2, 256]) 1 torch.Size([1, 2, 256])

    具体计算过程

    Ht = input * Wxh + Ht-1 * Whh + bias
    [batch_size, input_dim] * [input_dim, num_hiddens] + [batch_size, num_hiddens] *[num_hiddens, num_hiddens] +bias
    可以发现每个隐藏状态形状都是[batch_size, num_hiddens], 起始输出也是一样的
    注意:上面为了方便假设num_step=1

    import  torch
    from torch import nn

    rnn = nn.RNN(input_size=100,hidden_size=20,num_layers=1)

    print(rnn)

    x = torch.randn(20,3,100) #3句话,每句话 10个单词,每个单词100纬度

    out, h = rnn(x)
    print(out.shape,h.shape)

    print(nn.RNN(100,20))
    输出:
      

          RNN(100, 20)
          torch.Size([20, 3, 20]) torch.Size([1, 3, 20])
          RNN(100, 20)

    import  torch
    from torch import nn

    rnn = nn.RNN(input_size=100,hidden_size=20,num_layers=4)

    print(rnn)

    x = torch.randn(20,3,100) #3句话,每句话 10个单词,每个单词100纬度

    out, h = rnn(x)
    print(out.shape,h.shape)

    print(nn.RNN(100,20))
    输出 :torch.Size([20, 3, 20]) torch.Size([4, 3, 20])
  • 相关阅读:
    解决远程连接mysql很慢的方法(网络正常)
    分布式系统中可用性及容错性的区别
    设计模式个人思考
    记第一次多用户在Git提交代码
    Git远程分支的回退
    Linux模拟控制网络时延
    ubuntu 软件
    编译cubieboard android 源码过程详解之(六):pack
    编译cubieboard android 源码过程详解之(五):make
    编译cubieboard android 源码过程详解之(四):extract-bsp
  • 原文地址:https://www.cnblogs.com/kpwong/p/13457207.html
Copyright © 2020-2023  润新知