序列模型
我们这个是第四部分的一开始,叫做序列模型的东西,也就是 Sequence Model。其实就是整个RNN,整个NLP都是在处理一个序列。我们之前看到的图片是一个空间信息,而我们现在要考虑一个时间信息的模型,这个就是很不一样的地方。
之前我们都是假设有t个独立的随机变量,也就是这张图片和上一张图片是没有关系的。但是序列模型这里,这t个是不独立的随机变量。这也是时序序列和之前序列的一个主要区别。
那么不独立的随机变量,可以用上图的条件概率来进行表示。
根据上面的条件概率,可以讲(p(x))写出来,先按照正方向进行书写,那么意思就是(x_2)要以来于(x_1),同理,(x_3)要依赖于(x_1,x_2),以此类推。这个其实很好理解,如果是一个时序序列,那么对当前建模,是要知道过去发生了什么事情的。
当然这个过程可以是可以反过来的,就是先计算后面的,然后反过去推导。反序在某些时候是有意义的,就是我已经知道未来的事情,然后反过来推前面的事情。
这是正反方向后面在RNN都可以看到,可以正着来,也可以反着回去。
现在我们来看进行前向计算的这种情况。
(p(x_t|x_1,...,x_{t-1})=p(x_t|f(x_1,...,x_{t-1}))),现在是给定了(x_1,...,x_{t-1}),然后要计算(x_t),那么做法就是先将(x_1,...,x_{t-1})进行建模,表示为(f(x_1,...,x_{t-1})),(f())可以认为是用前面的数据训练了一个模型,然后来预测下一个模型。这个会跟之前不一样,之前是给定一个图片去预测一个标号,标号和图片不是一个东西,标号是标号,图片是图片。但是现在是根据前面的数据,去预测下一个数据,就是标号和真实的样本是一个东西,这样的模型叫做自回归模型。所谓的自回归,就是给定一些数据,我去预测数据的时候,不是用另外的数据,而是用了前面的样本,所以叫做自回归(用见过的数据自己建模,叫做自回归)。
核心思想是怎么计算(f(x_1,...,x_{t-1})),还有就是给定这个(f())后怎么去计算这个(P(x_t))
马尔可夫假设:假设当前数据只跟过去( au)个过去数据相关。
原始的模型是当前的数据,是和过去所有的数据都相关的,这会导致很多问题,当时间特别长的时候,需要往回看很多东西,会导致计算不容易。
现在利用马尔可夫假设,预测当前的数据只需要看前面( au)个,( au)取小一点,那么模型就简单点,( au)取大一点,那么模型就复杂点。好处就是( au)固定住了,那么( au)就不会随着时间的增大而增大,这多多少少也是符合现实中的逻辑,比如股票预测,会和一个月前相关,一年前相关,但是时间再久,相关性就不再那么强了。还有就是预测文本的文字,可能跟邻近的句子相关性会强,但是跟在前面的句子,基本也就不那么相关了。
如果是( au)个数据,我们对其建模,也就是(f(x_{t- au},...,x_{t-1})),这个看上去就比较容易做了,我们就在上面训练一个MLP就行了。假设(x)是一个标量的话,就是每次给(f())一个( au)长的向量,然后去预测一个标量,这个就是最简单的回归问题。意思就是给定这个( au),让变长的数据变成定长的数据,那么之前的所有技术都是可以使用的。
这里这么理解,如果是计算(x')的话,除了和前一个时间的(x)是相关的,当然也和隐变量(h')相关。这里核心的是说,一旦我们引入了潜变量的话,我们可以不断的去更新(h)。
(h')的计算也是看前一个时间的(h)还有(x)计算出来的。
所以其实上面是建立了两个模型,也就是紫色圈出来的部分。
模型1:如果根据前一个时间的(h)和(x)来计算当前时间(h')
模型2:给定新的(h)和前一个时间(x)来计算当前时间(x')
代码
这里是代码展示使用MLP来实现马尔可夫假设,进行时序模型的预测。其实最难的点是预测很远的未来,就算是正弦函数,使用MLP预测一个很远的未来也是一个非常困难的事情。
QA
- 在常规范围内,tau是不是越大越好?
tau大一些,当然预测的效果越好一些。但是tau越大,那么模型就要越复杂,同时样本的数量也会变少,那么这个是一个比较大的问题,所以tau的数值需要自己进行一个权衡。
- 潜变量模型和隐马尔可夫模型有什么区别?
它们之间是没有太多联系的,是不同的观点,但是它们可以相互借鉴,就是潜变量模型是可以使用马尔可夫假设的,之后的RNN都是用了马尔可夫假设,潜变量就是说我在更新的时候如何使用马尔可夫假设。马尔可夫假设说的是这个数据和前面多少个数据有关,而潜变量更多是说怎么进行建模。
- 可以认为mlp基础了过去数据的模式?然后去用这个模式去画出未来的趋势吗?
可以的,mlp是可以记住数据的。RNN也是可以记住数据的。
但是要说一句,只能记住数据的模型并不行,因为这样模型的泛化能力会很差。
- 有个想法,对时序数据分类,可以看作一幅图,然后使用cnn去做图像分类吗?
其实文本可以看作是时序序列,也可以看作是一个一维空间信息。
后面会讲如何使用conv-1d 来对文本进行分类。