时序点过程学习笔记

时序点过程学习笔记

https://zhuanlan.zhihu.com/p/110171621

一、什么是时序点过程

现实世界中有这么个问题：有这么一系列历史事件，每个事件都有其对应的发生时间，也有其所属的事件类型，基于这一系列历史事件，预测下一个要发生的是什么类型的事件，以及其发生的时间。

比如下一次地震发生在何时，何地是事件类型，比如一种股票的下一次买卖将发生在何时，买入或卖出是事件类型，比如用户将在何时去下一个目的地，目的地是哪里是事件类型。

点过程可以对这一系列历史事件建模，来解决这个预测问题。

$oldsymbol{s}=left{left(t_{i}, d_{i} ight) ight}_{i=1}^{l}, d_{i} in mathcal{D}={1, ldots, D}$

时序点过程的核心是强度函数 $lambda(t)$ 。 $N_d(t)$ 是截止 $t$ 时刻之前事件类型 $d$ 发生的总次数。 $lambda_d(t)dt$ 代表在时间窗口 $[t, t+dt]$ 内，事件类型 $d$ 发生的概率。

$lambda_d(t)dt = frac{mathbb{E}left[mathrm{d} N_{d}(t) | mathcal{H}_{t_{ ext {last }}} ight]dt}{mathrm{d} t}=frac{pleft(t, d | mathcal{H}_{t_{ ext {last }}} ight)dt}{1-Fleft(t | mathcal{H}_{t_{ ext {last }}} ight)}$

其中 $pleft(t, d | mathcal{H}_{t_{ ext {last }}} ight)$ 代表基于历史行为，事件类型 $d$ 在 $t$ 时刻发生的条件概率密度函数； $Fleft(t | mathcal{H}_{t_{ ext {last }}} ight)$ 代表基于历史行为，至少有一个事件类型在 $(t_{last}, t]$ 发生的条件概率。强度函数 $lambda(t)$ 为：

$egin{aligned} lambda(t) &=sum_{d=1}^{D} lambda_{d}(t) \ &=sum_{d=1}^{D} frac{pleft(t, d | mathcal{H}_{t_{ ext {last }}} ight)}{1-Fleft(t | mathcal{H}_{t_{ ext {last }}} ight)}=frac{pleft(t | mathcal{H}_{t_{ ext {last }}} ight)}{1-Fleft(t | mathcal{H}_{ ext {last}} ight)} \ &=frac{frac{mathrm{d} Fleft(t | mathcal{H}_{ ext {last }} ight)}{mathrm{d} t}}{1-Fleft(t | mathcal{H}_{left.t_{ ext {last }} ight)} ight.}=-frac{mathrm{d}}{mathrm{d} t} log left(1-Fleft(t | mathcal{H}_{ ext {last }} ight) ight) end{aligned}$

$egin{aligned} Fleft(t | mathcal{H}_{t_{ ext {last}}} ight) &=1-exp left(-int_{t_{ ext {lsst}}}^{t} lambda(s) mathrm{d} s ight) \ pleft(t | mathcal{H}_{t_{ ext {last}}} ight) &=lambda(t) exp left(-int_{t_{ ext {last}}}^{t} lambda(s) mathrm{d} s ight) \ pleft(t, d | mathcal{H}_{t_{ ext {lsst}}} ight) &=lambda_{d}(t) exp left(-int_{t_{ ext {last}}}^{t} lambda(s) mathrm{d} s ight) \ pleft(d | t, mathcal{H}_{t_{ ext {last}}} ight) &=frac{lambda_{d}(t)}{lambda(t)} end{aligned}$

因此，只要能根据历史事件模拟出强度函数 $lambda(t)$ ，则可以根据 $lambda(t)$ 预测下一个事件。对 $lambda(t)$ 的模拟将点过程分为传统点过程和深度点过程。

二、传统点过程

1.homogeneous poisson process假设 $lambda(t)$ 独立于历史事件，且随着 $t$ 的变化恒定，即 $lambda(t) = lambda_0geq0$ 。inhomogeneous poisson process假设 $lambda(t)$ 独立于历史事件，且随着 $t$ 的变化而变化，即 $lambda(t) = g(t)geq0$

2.hawkes process 认为历史事件有激励作用: $lambda(t)=gamma_{0}+alpha sum_{t_{j}<t} gammaleft(t, t_{j} ight),gamma_{0}geq0$ ， $alphageq0$ ， $gammaleft(t, t_{j} ight)=exp(-eta(t-t_j))$ ， $etageq0$

3. self-correcting process 认为强度函数的趋势是一直在增大，但是当一个事件发生后，会先减小。 $lambda(t)=exp left(mu t-sum_{t_{i}<t} alpha ight)$ ， $mu>0$ ， $alpha>0$

三、深度点过程

传统点过程缺点：

（1）传统点过程对强度函数有着上述设定，很有可能不符合实际情况，比如历史事件对强度函数的影响并不一定是累加的；

（2）如果有多种事件类型的话，还需作出各个事件类型是互相独立的假设，并且对每个事件类型求强度函数；

（3）传统点过程对数据的缺失处理不是很好，有时我们只能观测到一部分事件。

深度点过程就无需这么麻烦，用神经网络这样的非线性函数模拟强度函数，这样一个黑盒子无需设定任何先验知识。

1. Recurrent Markd Temporal Point Processes:Embedding Event History to Vector（kdd2016）

输入层：事件类型和发生时间为输入。事件类型用词向量，时间用时间的特征（比如是否周末，是否深夜等）

事件类型生成：普通的softmax

强度函数为：

$lambda(t)=exp (underbrace{oldsymbol{v}^{t^{ op}} cdot oldsymbol{h}_{j}}_{ ext {past influence }}+underbrace{w^{t}left(t-t_{j} ight)}_{ ext {current influence }}+underbrace{b^{t}}_{ ext {base intensity }})$

时间生成：用下面这种求平均值的算法比较复杂，没有数值解，有一种简单的解法，我还没弄明白是啥...

$egin{array}{l}f(t)=lambda(t) exp left(-int_{t_{j}}^{t} lambda( au) d au ight) \ =exp left{oldsymbol{v}^{t^{ op}} cdot oldsymbol{h}_{j}+w^{t}left(t-t_{j} ight)+b^{t}+frac{1}{w} exp left(oldsymbol{v}^{t^{ op}} cdot oldsymbol{h}_{j}+b^{t} ight) ight. \ left.-frac{1}{w} exp left(oldsymbol{v}^{t^{ op}} cdot oldsymbol{h}_{j}+w^{t}left(t-t_{j} ight)+b^{t} ight) ight}end{array}$

$hat{t}_{j+1}=int_{t_{j}}^{infty} t cdot f(t) d t$

loss: $ellleft(left{mathcal{S}^{i} ight} ight)=sum_{i} sum_{j}left(log Pleft(y_{j+1}^{i} | oldsymbol{h}_{j} ight)+log fleft(d_{j+1}^{i} | oldsymbol{h}_{j} ight) ight)$

实验使用的四个数据集：

New York City Taxi Dataset：共173 million记录，299个事件类型，670753 个序列

Financial Transaction Dataset：共0.7 million记录，2个事件类型，693499 个序列

Electrical Medical Records：204个事件类型，650个病人的序列

Stack OverFlow Dataset ：共480k记录，81个事件类型，6k用户的序列

代码地址: https://github.com/dunan/NeuralPointProcess

2. The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process（nips 2017）

上一篇论文中，lstm的不同时步的hidden state是离散的，换句话说：当一个新事件发生后，断崖式变化。本文提出一个连续的hidden state变化方式。

$lambda_{k}(t)=f_{k}left(mathbf{w}_{k}^{ op} mathbf{h}(t) ight)$ $mathbf{h}(t)=mathbf{o}_{i} odot(2 sigma(2 mathbf{c}(t))-1) ext { for } t inleft(t_{i-1}, t_{i} ight]$

事件 $i-1$ 到事件 $i$ 之间的 $t$ 时刻，强度函数由 $mathbf{h}(t)$ 决定， $mathbf{h}(t)$ 由 $mathbf{c}(t)$ 决定。注意 $mathbf{c}(t)$ 在上篇论文是没有的哦，因为上一篇论文只有事件 $i-1$ 到事件 $i$ ，没有他们之间的 $t$ 时刻

$egin{aligned} mathbf{i}_{i+1} & leftarrow sigmaleft(mathbf{W}_{mathbf{i}} mathbf{k}_{i}+mathbf{U}_{mathbf{i}} mathbf{h}left(t_{i} ight)+mathbf{d}_{mathbf{i}} ight) \ mathbf{f}_{i+1} & leftarrow sigmaleft(mathbf{W}_{mathbf{f}} mathbf{k}_{i}+mathbf{U}_{mathbf{f}} mathbf{h}left(t_{i} ight)+mathbf{d}_{mathbf{f}} ight) \ mathbf{z}_{i+1} & leftarrow 2 sigmaleft(mathbf{W}_{mathbf{z}} mathbf{k}_{i}+mathbf{U}_{mathbf{z}} mathbf{h}left(t_{i} ight)+mathbf{d}_{mathbf{z}} ight)-1 \ mathbf{o}_{i+1} & leftarrow sigmaleft(mathbf{W}_{mathbf{o}} mathbf{k}_{i}+mathbf{U}_{mathbf{o}} mathbf{h}left(t_{i} ight)+mathbf{d}_{mathbf{o}} ight) end{aligned}$

$egin{array}{l}mathbf{c}_{i+1} leftarrow mathbf{f}_{i+1} odot mathbf{c}left(t_{i} ight)+mathbf{i}_{i+1} odot mathbf{z}_{i+1} \ overline{mathbf{c}}_{i+1} leftarrow overline{mathbf{f}}_{i+1} odot overline{mathbf{c}}_{i}+overline{oldsymbol{imath}}_{i+1} odot mathbf{z}_{i+1} \ oldsymbol{delta}_{i+1} leftarrow fleft(mathbf{W}_{mathrm{d}} mathbf{k}_{i}+mathbf{U}_{mathrm{d}} mathbf{h}left(t_{i} ight)+mathbf{d}_{mathrm{d}} ight)end{array}$

$mathbf{c}(t) stackrel{ ext { def }}{=} overline{mathbf{c}}_{i+1}+left(mathbf{c}_{i+1}-overline{mathbf{c}}_{i+1} ight) exp left(-oldsymbol{delta}_{i+1}left(t-t_{i} ight) ight) ext { for } t inleft(t_{i}, t_{i+1} ight]$

这里的 $mathbf{h}(t_i)$ 和 $mathbf{c}(t_i)$ 都不和上一篇论文中一样，而是 $mathbf{h}(t)$ 和 $mathbf{c}(t)$ 在 $t_i$ 时刻的值。

可见 $mathbf{c}(t)$ 事件 $i$ 到事件 $i+1$ 之间从 $mathbf{c}_{i+1}$ 向 $overline{mathbf{c}}_{i+1}$ 变化的，至于 $overline{mathbf{c}}_{i+1}$ 怎么来的，大概是训练的参数吧（还没太明白）。

loss是根据强度函数算的：

$ell=sum_{i: t_{i} leq T} log lambda_{k_{i}}left(t_{i} ight)-underbrace{int_{t=0}^{T} lambda(t) d t}_{ ext {call this } Lambda}$

本文的测试数据集：

Retweets Dataset：3个事件类型，1739547 个序列，序列长度109

MemeTrack Dataset：5000个事件类型，93267 个序列，序列长度3

3. CTRec: A Long-Short Demands Evolution Model for Continuous-Time Recommendation（SIGIR 2019）

这篇文章主要是将深度点过程用在商品推荐上，之前的商品推荐只考虑推荐对的商品，没有考虑在对的时间推荐对的商品，比如用户刚买了个厕所读物，不代表它喜欢厕所读物，不能一直给他推荐厕所读物，而应该考虑商品周期，等他看完了上一本，再给他推荐新的（长期需求）。再比如用户买了个画板，就得立马推荐颜料了（短期需求）。总之，就是考虑用户画像、短期需求和长期需求。

论文有三个创新点：使用的连续lstm，就是上一篇论文中的；使用cnn捕捉短期需求；使用attention捕捉长期需求。

强度函数融合了用户画像、短期需求和长期需求。

$lambda_{i}(t ; heta)=f(underbrace{w_{i}^{i t e m op} cdot h(t)}_{ ext {short-term }}+underbrace{w_{i}^{a t t r i^{ op}} cdot vartheta(t)}_{ ext {long-term }}+underbrace{w_{i}^{u s e r op} cdot u}_{ ext {basic demands }})$

cnn使用k个核做多层卷积，最后average pooling。

attention：

$alpha_{t, t_{j}}=oldsymbol{h}left(t_{j} ight)^{ op} oldsymbol{i}_{t}-lambda log left(max left{gamma, d_{a_{t}, a_{t_{j}}}^{u}-Delta_{a_{t}, a_{t_{j}}}^{u} ight} ight)$

$mathcal{P}_{t}=sum_{j=1}^{n} frac{exp left(alpha_{t, t_{j}} ight)}{sum_{q=1}^{n} exp left(alpha_{t, t_{q}} ight)} oldsymbol{h}left(t_{j} ight)$

$egin{aligned} ellleft(I_{t}^{u} ; heta ight) &=sum_{j=1}^{n} log operatorname{Pr}left(i_{t_{j}} | I_{t_{j}}^{u}, Delta t_{j} ight) \ &=underbrace{sum_{j=1}^{n} log lambda_{i_{t_{j}}}left(t_{j} ; heta ight)}_{ ext {purchase }}-sum_{i_{ ext {neg}} in I} int_{t_{1}}^{t_{n}} lambda_{i_{ ext {neg}}}(t) d t \ &=sum_{i_{ ext {neg}} in I} sum_{j=1}^{n}left(frac{1}{|I|} log lambda_{i_{t_{j}}}left(t_{j} ; heta ight)-int_{t_{j-1}}^{t_{j}} lambda_{ ext {ineg}}(t) d t ight) end{aligned}$

$i_{n+epsilon}=arg max _{i} int_{t_{n}}^{t_{n+epsilon}} frac{lambda_{i}(t ; heta)}{sum_{j in I} lambda_{j}(t ; heta)} p_{i}(t ; heta) d t, epsilon in mathbb{N}^{*}$
相关阅读:
数据库my.ini配置
 子查询|视图|事务
 AspCms标签。链接地址：http://biaoqian.iasp.com.cn/
c#代码实现百度搜索页面网页遍历
 DataTable 应用以及 dataGridView的用法参考代码
 c#语言报表和图表。
C# 网络编程之webBrowser获取网页url和下载网页中图片
 C#语言实现对网页图片的随机抓取。基础办法，但还有一点小问题，欢迎大家指正
 c#语言实现对电脑文件夹的批量改名，选定改名
 c#邮件群发
原文地址：https://www.cnblogs.com/dhcn/p/14759157.html

时序点过程学习笔记

二、传统点过程

三、深度点过程

1. Recurrent Markd Temporal Point Processes:Embedding Event History to Vector（kdd2016）

2. The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process（nips 2017）

3. CTRec: A Long-Short Demands Evolution Model for Continuous-Time Recommendation（SIGIR 2019）