本系列以 Hautsch, N. (2011). Econometrics of financial high-frequency data. Springer Science & Business Media 为主要参考资料,作为本系列第一篇,主要介绍一下背景和概要。
这一系列同我其他技术文章的初衷一样,也是一是希望加深自己的学习,记录下研究的过程,二是希望对大家的学习有所帮助。形式上以翻译原著为主,但不求逐字逐句,同时会补充一些其他资料,最新的数据和一些我的个人见解。比如实证部分, 我会以中文读者比较关心的中国、香港和美国资本市场为例,并且将用到R的代码开源到 GitHub 上,并在最后打包发布(如果不烂尾的话 : – ))。但限于本人水平,错误难免,文中还可能会时不时的出现英文单词,其本意并非我想掉个洋书袋,而恰恰是我英文水平有限,没办法简洁而准确地翻译出来,我会尽量避免,欢迎大家指正和交流。
是一次非常偶然的机会, 宋斌教授推荐了《Econometrics of Financial High-Frequency Data》这本书给我,她作为中央财经大学投资系系主任,量化投资和高频交易也是她的研究方向之一,我自然是会对这本书特别关照,所以也就有了这个系列的文章,在此也很感谢宋老师的指导!
关于版权问题,我的文章欢迎转载,注明出处即可。但是我并没有版权方的相关授权,而且理论部分的很多篇幅会直接引用或译自书中,我不太清楚是否会造成侵权,如有侵权,请联系我,我会及时删除相关内容,希望大家购买正版书籍。
以上算是前言、致谢和Copyleft的声明,下面进入正文。
交易系统的技术不断发展, 高频数据记录不断完善,以及日内交易的流行、订单执行优化等问题催生了高频计量的发展。由于高频交易创造的稳定和丰厚的利润,很多机构都开始使用高频交易,根据 Lati, R. (2009) 的数据,2009年,在美国20,000支基金中只占2%的高频基金贡献了市场73%的交易量!学术界和产业界主要关注的问题之一 就是,高频粒度的市场结构和交易过程一直在不断变化。这是由于电子交易平台的发展使得交易量、交易速度不断提升,投资者采用各种各样的交易策略、订单管理策略,以及各种策略之间的相互竞争作用、不同交易所的规则等等,这些都对高频计量的建模造成了很大的挑战。通过对交易数据和订单数据的建模,我们可以分析交易所规则对交易的影响,对交易量、波动率、订单簿深度等进行预测,寻找最优下单策略、减少市场冲击和交易成本,评估流动性和价格等风险,统计资产和市场的相关性。
区别于一般计量和统计模型的是,高频数据是不规则地分布于时间轴上,在传统计量模型上时序分析的经典理论 Box (2015), 何书元 (2003), Hamilton (1995),都是建立在采样点是均匀分布于时间轴这一假设之上,时间间隔作为trivial变量被忽略了。但实际上,市场事件(订单、交易等等)发生的间隔时间不仅携带信息而且十分重要,它可以作为市场活跃程度的度量并会影响交易价格和交易量。将这一时间特征考虑进去就是点过程(Point Process),它不仅刻画了事件在时间轴上随机出现的性质,也包含了事件本身的特征、历史数据等相互之间关系。2003年诺贝尔经济学奖获得者 Robert F. Engle 在1996年首次提出了点过程的在计量模型中的重要性,他的论文 Engle (2000) 也被认为是高频计量快速发展的开端。
除此之外,价格、交易量、买卖价差等很多数据都是离散的,而非连续的。同时,大部分数据都是正值,数据之间常常是持续正相关 (positively autocorrelated, strongly persistent),在同一天表现出不同的周期性。还有就是交易过程、订单过程都是高维和复杂的动态结构。所有这些,都要求我们在传统计量基础上发展新的理论与实证方法。
本书也即本系列的文章的主要目的是对最新和最重要的高频计量方法做一个介绍,包括对市场微观结构的分析,对波动率、流动性等建模及其实现。要对高频数据进行建模,很重要的一点是要准确地刻画数据的动态特征,所以自回归条件均值 (autoregressive conditional mean) 模型会起到很大作用,其背后的思想就是将条件均值作为自回归模型。在此基础上又衍生出了MEMs (multiplicative error models) 一类模型,用于刻画交易间间隔的 ACD (autoregressive conditional duration) 模型,用于刻画计数数据的 ACP (autoregressive conditional poisson) 模型等等。这些模型都可以用于刻画高频数据的非线性动态特征、持久依赖 (long range dependence),也可以扩展到多元模型。高频计量的方法论的核心是(随机)密度函数的动态模型,这也是点过程的核心,其含义是在给定历史数据和观测变量的条件下,事件发生的频率,可以通俗地理解为条件概率。为了对高维的交易和订单的动态过程进行降维,基于因子的建模方式也十分重要。以上这些模型、应用和实证数据都会在接下来一一展开。
祝福我不要鸽!
Reference:
Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.
Engle, R. F. (2000). The econometrics of ultra‐high‐frequency data. Econometrica, 68(1), 1-22.
Hamilton, J. D. (1995). Time series analysis. Economic Theory. II, Princeton University Press, USA, 625-630.
Hautsch, N. (2011). Econometrics of financial high-frequency data. Springer Science & Business Media.
Lati, R. (2009). The real story of trading software espionage. Advanced Trading.
何书元. (2003). 应用时间序列分析. 北京大学出版社.