大数据与黑天鹅等
2015.4.10发布的blog《大数据观点补充》曾经说过:
http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
【黑天鹅才是新常态】
金融市场 大家都是大数据 会反向干扰态势的
现在(2015) 黑天鹅才是新常态
看看:石油价格 瑞士法郎 日元升值 光大砸盘 黄金狂跌
全部没节操 没下限
十天后,2015.4.21《上交所交易量“爆表”》
上海证券交易所周一称因软件设置原因,上交所市场成交金额超过1万亿元人民币后无法及时更新
http://www.solidot.org/story?sid=43769
并非我们有什么预测未来的大能,而是在实盘操作时得出的经验模型:
黑天鹅算法模型(zPSO,z粒子算法的升级版)。
传统的大数据分析,像R语言,置信空间是95%,也就是说,5%的小概率事件是不考虑的,属于黑天鹅事件
而实盘中,恰恰是这5%的黑天鹅,才是真正的盈利点所在?
经验表明,对整个数据级,5-8%左右的筛选结果,盈利概率(参数v)相对较高
(摘自《大数据和高频量化交易》
http://blog.sina.com.cn/s/blog_7100d4220102vkai.html)
why?为什么?
没有道理啊?
因为,当大家都是大数据时,会反向干扰态势。
大数据需要大计算,普通的集群(100-200台)都不行,于是云计算华丽登场。
目前,最早商业化的云计算亚马逊已经爆出n起大客户退单,就像网络实名制的韩国,目前也放弃了实名制。
云计算的硬件基础是多核、并行运算,GPU、cuda、opencl、mpi,这些架构,目前都处于摸索阶段。
其中最有前途的intel百核CPU:Xeon Phi系列,2015完成度也只有60%,而且需要3-5年才能发布。
(《Intel
60核处理器登场》http://diy.pconline.com.cn/627/6277957.html)
至于目前流行的各种大数据核心算法,都是基于统计分析、聚类分析,以及各种各样、五花八门的分析模型。
这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。
这些算法,看名字就知道,玄而又玄,不知所云。
关键的是,这些算法都是受限模型,是基于某些特定条件下的模型,无法通用,
就像冰岛的"啤酒和尿布"模型,到了中国,完全没戏,至少在沃尔玛、家乐福、华润等超市,没有看到这种模式。
而并行开发最重要的工具,通用并行编程语言,目前一种都没有,目前最流行的cuda c,尚处于汇编阶段,
硬件没有,软件没有,算法没有、模型没有、开发工具没有
就这样一个项目,居然成为国家战略级项目,数千亿、上万亿的投资
怎么看,怎么不靠谱?
就像五十年代的赶英超美、全民炼钢。
今天,我们是完成了这个目标,可是这个是在各种条件数十年积累后才完成的。
政府决策部门,强推大数据,提升为国家战略的另外两个“潜在”考虑,可能是:
::基于大数据、信息科技的新型“计划经济”,个人对经济不熟悉,但直觉上觉得不靠谱,至少目前没看到有这方面的理论体系,而成熟的理论体系,是项目成功的基本要素。
::建立类似1984的社会管理体系,这个更加不靠谱,网络危机公关的经典手法就是,采用大量的关联信息,淹没负面新闻。
政府决策部门,跑步进入数据共产主义,多半是被神奇的“人脸识别”算法和淘宝、支付宝后台数据唬住了,就像古代方士们神奇的魔术表演。
::“人脸识别”其实是个很简单的opencv通用算法,普通的手机、平板都可以实现,不需要大数据、也不需要云计算,我们发布的开源项目:zwPython,就内置了相关模块和算法、以及源码。
::淘宝、支付宝的海量数据,也没有多么神奇,余额宝的利息,目前也和普通基金、定息差不多。
大数据、云计算,看起来的确很高大上,比玩地产的土鳖“逼格”高太多了,比玩实业的工商企业轻松多了。
说个最简单的一线实例:
大数据的处理平台,实际就是超算,什么天河一号、天河二号,等等
CPU有用intel的Xeon Phi,但主流是nv显卡,cuda编程,操作系统,90%以上是linux
国内开发团队刷排名,争资源、做政绩,intel、nv闷声接订单,赚金币。。。
一直以来,这样做,大家都觉得蛮好的,
好了,2015,黑天鹅又来了,美国政府宣布对中国超算项目,禁售高端xeon芯片
禁售其实不难解决,汕头做硬盘、cpu、内存走私的、分分钟可以解决
难的是,nv公司2015年最新的cuda7,不提供linux显卡驱动,
这下,可真是会死人的,没驱动,显卡都点不亮,还超算,还cuda,
至于大数据,连电都没有的非洲,你说什么互联网,还真以为自己是上帝,show me the light
怎么办,还真的叫国安去吧nv的ceo黄总,请到国内,旅游、讲课。。。。。。
大数据的处理平台,实际就是超算,什么天河一号、天河二号,等等
CPU有用intel的Xeon Phi,但主流是nv显卡,cuda编程,操作系统,90%以上是linux
国内开发团队刷排名,争资源、做政绩,intel、nv闷声接订单,赚金币。。。
一直以来,这样做,大家都觉得蛮好的,
好了,2015,黑天鹅又来了,美国政府宣布对中国超算项目,禁售高端xeon芯片
禁售其实不难解决,汕头做硬盘、cpu、内存走私的、分分钟可以解决
难的是,nv公司2015年最新的cuda7,不提供linux显卡驱动,
这下,可真是会死人的,没驱动,显卡都点不亮,还超算,还cuda,
至于大数据,连电都没有的非洲,你说什么互联网,还真以为自己是上帝,show me the light
怎么办,还真的叫国安去吧nv的ceo黄总,请到国内,旅游、讲课。。。。。。
大数据,再多的专家,再nb的模型,再炫的demo,
也不如自己亲自去沃尔玛、家乐福、华润等超市亲眼看看,再回头问问这些大师们,"啤酒和尿布"模型,怎么玩砸了?
所以我们说:凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓
也不如自己亲自去沃尔玛、家乐福、华润等超市亲眼看看,再回头问问这些大师们,"啤酒和尿布"模型,怎么玩砸了?
所以我们说:凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓
关于大数据和人工智能,我的基本观点是:
凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓。
这就是大数据、人工智能的图灵测试!
为什么?
关于这个问题,就价值十个博士学位。
看不懂这句话的,还是少玩大数据、人工智能。
Talk is cheap,Show me the code!----Linus(linux 发明人)
足球比赛,从数学角度而言,是最简单三选一,胜、负、平
而真正的大数据分析,是在成千上万种可能中,选择最接近的进行匹配,
连最简单的三选一都搞不定,来谈难度、复杂度高数百倍、上千倍的n选一(n>1000),是不是有些不靠谱
而真正的大数据分析,是在成千上万种可能中,选择最接近的进行匹配,
连最简单的三选一都搞不定,来谈难度、复杂度高数百倍、上千倍的n选一(n>1000),是不是有些不靠谱
2014世界杯 对于大数据 人工智能 是个分水岭 是元年
微软 谷歌 百度 都有相关的项目 胜率<50%
为什么?
这个也可以作为,这个观点的背景与补充。