• Sequence model


    概述:处理样本数不规则的模型

    recurrent neural network递归神经网络

    参数共享,前->后
    样本逐个扫描
    a激活用一套参数
    y激活用一套参数

    参数流

    x、y个数不一致的RNN

    序列样本分类问题

    音乐生成、机器翻译

    RNN类型总结

    language model with RNN

    输出P(sentence),并按照y(i)展开为字符串

    从训练模型采样

    在训练过程中,结局梯度爆炸
    gradient clipping:梯度过大时,重新缩放梯度向量

    GRU gated recurrent unit

    解决了梯度爆炸问题
    新建c{} = a{}

    c的估计值
    ( ilde C^{<t>} = tanh(w_c[c^{<t-1>},x^{<t>}]+b_c))

    Gata,门限值,0 or 1,选择是否记忆
    (Gamma_u = sigma(w_u[c^{<t-1>},x^{<t>}]+b_u))$

    c的实际值更新函数
    (c^{<t>} = Gamma_u * ilde c ^{<t>} + (1-Gamma_u) c^{<t-1>})

    • GRU单元

    LSTM (Long Short Term Memory)

    Bidirectional双向 RNN BRNN

    Deep RNN

    word representation

    只用 one-hot,无法表征单词之间的关系
    点积为0
    构建词向量 word vec

    man - women
    king - queen

    词向量库 E 泛化negligible不错

    相似度函数


    应对大词典的softmax运算慢问题,构建二叉树数据结构,常用的放上面,不用每次计算概率

    平衡P(t|c),避免the of 等 词频繁运算出现

    负采样法Negative sampling

    Glove global vectors for word representation

    情感分类sentiment classification

    问题描述:

    平均数 词向量分类

    词编码向量的偏差消除

    变输入输出架构

    主要应用在语言识别和机器翻译

    架构:编码器 + 解码器各用了一个

    Beam search

    对于翻译算法来说,一次得到整个句子的最优概率对应翻译,搜索量太大,而贪心算法,每次只选一个,随机误差太大,效果差,因此引入Beam search 算法
    每次考虑2步,第一步选B个,第二部全选n个,从B x n个中寻优

    概率估计值数值稳定性

    • 概率(in [0,1]),连乘,数值稳定性差
    • 转化为log函数求和,越加越小
    • 平均值,比求和好
    • 用(frac{1}{T_y^alpha})

    Error analysis

    注意力集中 Attention model intution

    • 长序列模型的问题 without 注意力模型,(y^{<t>}) 取决于 (a^{<t>})
      带有注意力的系统,将权重,分散给其他的几个激活值(a^{<t>})

    注意力权重计算

    用softmax保证和为1

    语音识别

    声音预处理,频谱

  • 相关阅读:
    九度OJ 1031:xxx定律 (基础题)
    九度OJ 1030:毕业bg (01背包、DP)
    九度OJ 1029:魔咒词典 (排序)
    九度OJ 1028:继续畅通工程 (最小生成树)
    九度OJ 1027:欧拉回路 (欧拉回路)
    九度OJ 1026:又一版 A+B (进制转换)
    九度OJ 1025:最大报销额 (01背包、DP)
    九度OJ 1024:畅通工程 (最小生成树)
    九度OJ 1023:EXCEL排序 (排序)
    九度OJ 1022:游船出租 (统计)
  • 原文地址:https://www.cnblogs.com/tolshao/p/sequence-model.html
Copyright © 2020-2023  润新知