字王看:大数据和高频量化交易
这个原本是和国内一家做高频量化公司Boss沟通时的写的,修改了一下,作为blog和zwPython的大数据资料,发布了:
关于大数据、高频交易和人工智能,我的基本观点:
凡是无法通过“足彩数据”进行实盘测试的方案、算法,都是在耍流氓。
高频量化交易个人观点
1、采用2-3个维度作为数据分析坐标,
主坐标,一般可用分(秒)钟的实时数据,第二、三坐标,可以采用关联金融产品,如外汇、贵重金属等参数,这个需要具体测试后再细化。
另外,如果可能,与百度、新浪微博、微信、淘宝等机构,建立实时的API数据接口,进行元数据搜索,作为一个参照维度。
数据源,不宜超过3个维度,原因如下:
::便于数据的2D、3D可视化分析。
::数据维度过高,会带来几何级的数据量,无法保证实时运算和精度
::实战测试,数据越多,反而会影响精度。目前个人数据分析的一个重点,就是“小”数据。老子《道德经·第六十三章》有云:天下大事,必做于细。
我在一个blog上面也找到了数学支持,龙格现象,http://zh.wikipedia.org/wiki/龙格现象
::维度越多,可供单一维度的数据量就也少,反而会影响分析结果.
2、策略方面,有分析和统计两种模式,各有优劣,个人建议采用统计作为匹配模型。
这个也是目前大数据分析的一个趋势,人工智能领域的外语翻译项目,六十年代开始,一直采用分析模型,始终无法商业化。2000年后,互联网的兴起,派生海量语义库,短短几年时间,人机外语翻译已经初步实用化。
传统技术平台,首制于PC运算速度,偏重与分析,近年,伴随CUDA并行运算的崛起,PC也可达到以往巨型机10G以上的运算速度,分析建模,逐渐被统计建库(数据库)取代。
统计模型的建立、选择,实际上也融合了不同团队的策略。
模型建立后,导入历史数据,进行归一化处理、统计分析、聚类分析,可生成2-3个维度的数据库,便有了2D、3D的数据节点。
运行时,获取实际交易数据,按数据节点进行匹配,就可以获得实时的:盈利概率(参数v)
参数v,根据预设的交易阀值K,便可进行买、卖、忽略等预设操作。
3、实际操盘,采用群组交易,测试表明,针对单一对象的分析预测,远低于多个对象的群组分析。
经验表明,对整个数据级,5-8%左右的筛选结果,盈利概率(参数v)相对较高
目前我们采用的数据源是足彩数据,原因如下:
1,2012年,初期采用国内股票交易数据,自己编程并下载了国内开盘以来历年的日数据,五分钟交易数据,量太大,而且不完整。
股票数据,作为数据源,有个先天缺陷(目前可能可以弥补,见后文),股票交易,只有时间一个维度,无法进行交叉分析,同一只股票,同一个时间节点,没有横向对比参数。
2、2013年开始,采用足球博彩数据作为分析数据源,因为同一场比赛,全球有数百家公司同时提供横向的对比数据,同时,同一个公司,同样的赔率,可以提供纵向的对比数据。
当然,还有同一只球队、不同联赛等数据,并未采用。
未采用,一方面是限于数据规模,运算速度,另外一方面,是实战测试,数据越多,反而会影响精度。
通过一年的盘前数据分析,相关模型不断优化,目前,盈利概率(参数v)已经超过95%
近期,对比检索了国内数十家相关网站,包括百度、谷歌、微软的世界杯足彩、人工智能项目、大数据项目,以及相关的博彩分析平台,
这个指标,应该是目前行业最高的
以上是个人的一家之言,仅供参考。
技术博客:http://blog.sina.com.cn/zbrow
【补充】 基于大数据的量化投资、股市系统,验收标准,摘自QQ对话
注意下盈利参数V,其他都是技术细节
目前大盘整体波动大,要和大盘平均指数比,不然没有意义
另外,注意稳定性,取2-3个月的周平均指数,看看系统模型有没有bug
QQ群 247994767(delphi与halcon)
【zw版《delphi与halcon系列原创教程》,网址,cnblogs.com/ziwang/ 】
QQ:2592439395(zw) ,
delphi+halcon,图像分析神级配置,
分分钟秒杀 c+opencv,python+opencv,c+matlab,
以及其他各种组合