大数据与黑天鹅等

大数据与黑天鹅等

大数据与黑天鹅等

2015.4.10发布的blog《大数据观点补充》曾经说过：

http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

【黑天鹅才是新常态】

金融市场大家都是大数据会反向干扰态势的

现在（2015）黑天鹅才是新常态

看看：石油价格瑞士法郎日元升值光大砸盘黄金狂跌

全部没节操没下限

十天后，2015.4.21《上交所交易量“爆表”》

上海证券交易所周一称因软件设置原因，上交所市场成交金额超过1万亿元人民币后无法及时更新

http://www.solidot.org/story?sid=43769

并非我们有什么预测未来的大能，而是在实盘操作时得出的经验模型：

黑天鹅算法模型（zPSO，z粒子算法的升级版）。

传统的大数据分析，像R语言，置信空间是95%，也就是说，5%的小概率事件是不考虑的，属于黑天鹅事件

而实盘中，恰恰是这5%的黑天鹅，才是真正的盈利点所在？

经验表明，对整个数据级，5-8%左右的筛选结果，盈利概率（参数v）相对较高

(摘自《大数据和高频量化交易》 http://blog.sina.com.cn/s/blog_7100d4220102vkai.html)

why？为什么？

没有道理啊？

因为，当大家都是大数据时，会反向干扰态势。

大数据需要大计算，普通的集群(100-200台)都不行，于是云计算华丽登场。

目前，最早商业化的云计算亚马逊已经爆出n起大客户退单，就像网络实名制的韩国，目前也放弃了实名制。

云计算的硬件基础是多核、并行运算，GPU、cuda、opencl、mpi，这些架构，目前都处于摸索阶段。

其中最有前途的intel百核CPU：Xeon Phi系列，2015完成度也只有60%，而且需要3-5年才能发布。

（《Intel 60核处理器登场》http://diy.pconline.com.cn/627/6277957.html）

至于目前流行的各种大数据核心算法，都是基于统计分析、聚类分析，以及各种各样、五花八门的分析模型。

这些分析模型与算法，大多基于传统的人工智能研究，什么啄木鸟算法、萤火虫算法、蚁群算法，大部分都是经验性、实验模型，缺乏系统的理论支持。

这些算法，看名字就知道，玄而又玄，不知所云。

关键的是，这些算法都是受限模型，是基于某些特定条件下的模型，无法通用，

就像冰岛的"啤酒和尿布"模型，到了中国，完全没戏，至少在沃尔玛、家乐福、华润等超市，没有看到这种模式。

而并行开发最重要的工具，通用并行编程语言，目前一种都没有，目前最流行的cuda c，尚处于汇编阶段，

硬件没有，软件没有，算法没有、模型没有、开发工具没有

就这样一个项目，居然成为国家战略级项目，数千亿、上万亿的投资

怎么看，怎么不靠谱？

就像五十年代的赶英超美、全民炼钢。

今天，我们是完成了这个目标，可是这个是在各种条件数十年积累后才完成的。

政府决策部门，强推大数据，提升为国家战略的另外两个“潜在”考虑，可能是：

::基于大数据、信息科技的新型“计划经济”，个人对经济不熟悉，但直觉上觉得不靠谱，至少目前没看到有这方面的理论体系，而成熟的理论体系，是项目成功的基本要素。

有了成熟的理论体系，未必一定成功，没有，绝对是失败

::建立类似1984的社会管理体系，这个更加不靠谱，网络危机公关的经典手法就是，采用大量的关联信息，淹没负面新闻。

一组（10台）电脑，每天可以发布上亿条信息（包括填写验证码），可以模拟千万级的用户数据。

（顺便说一句，个人是国内首家4A级网络公关公司的联合创始人之一，服务过150+国际500强，包括微软、奔驰、西门子）

政府决策部门，跑步进入数据共产主义，多半是被神奇的“人脸识别”算法和淘宝、支付宝后台数据唬住了，就像古代方士们神奇的魔术表演。

::“人脸识别”其实是个很简单的opencv通用算法，普通的手机、平板都可以实现，不需要大数据、也不需要云计算，我们发布的开源项目：zwPython，就内置了相关模块和算法、以及源码。

（zwPython集成式python开发平台, http://blog.sina.com.cn/s/blog_7100d4220102vk6x.html )

::淘宝、支付宝的海量数据，也没有多么神奇，余额宝的利息，目前也和普通基金、定息差不多。

大数据、云计算，看起来的确很高大上，比玩地产的土鳖“逼格”高太多了，比玩实业的工商企业轻松多了。

可是，大数据的的核心硬件服务器、软件、数据库，都要进口，而硬件服务器的折旧比汽车还快，最前沿的硬件，基本3年就基本价值归零，就是一堆废铁

因此，目前各地政府的批量上马数据中心、计算中心，投资回报更加令人担心，一个3-5年，回报率无限归零的项目，而且投资总额分分钟过万亿。

也许，大家会认为，这么多资金，上万亿砸下去，至少在人才方面会有收获，会培养一支自己的团队。

这个，也许，不过意思不大。

日本全民动员的第五代电脑，目前至少也有些国际上知名的IT项目：比特币、ruby语言，可是对日本IT产业的整体盘，没有多少帮助。

说个最简单的一线实例：
大数据的处理平台，实际就是超算，什么天河一号、天河二号，等等
CPU有用intel的Xeon Phi，但主流是nv显卡，cuda编程，操作系统，90%以上是linux
国内开发团队刷排名，争资源、做政绩，intel、nv闷声接订单，赚金币。。。
一直以来，这样做，大家都觉得蛮好的，
好了，2015，黑天鹅又来了，美国政府宣布对中国超算项目，禁售高端xeon芯片
禁售其实不难解决，汕头做硬盘、cpu、内存走私的、分分钟可以解决
难的是，nv公司2015年最新的cuda7，不提供linux显卡驱动，
这下，可真是会死人的，没驱动，显卡都点不亮，还超算，还cuda，
至于大数据，连电都没有的非洲，你说什么互联网，还真以为自己是上帝，show me the light
怎么办，还真的叫国安去吧nv的ceo黄总，请到国内，旅游、讲课。。。。。。

大数据，再多的专家，再nb的模型，再炫的demo，
也不如自己亲自去沃尔玛、家乐福、华润等超市亲眼看看，再回头问问这些大师们，"啤酒和尿布"模型，怎么玩砸了？
所以我们说：凡是无法通过“足彩数据”实盘测试的方案、算法，都是在耍流氓

关于大数据和人工智能，我的基本观点是:

凡是无法通过“足彩数据”实盘测试的方案、算法，都是在耍流氓。

这就是大数据、人工智能的图灵测试！

为什么？

关于这个问题，就价值十个博士学位。

看不懂这句话的，还是少玩大数据、人工智能。

Talk is cheap，Show me the code！----Linus(linux 发明人)

足球比赛，从数学角度而言，是最简单三选一，胜、负、平
而真正的大数据分析，是在成千上万种可能中，选择最接近的进行匹配，
连最简单的三选一都搞不定，来谈难度、复杂度高数百倍、上千倍的n选一（n>1000），是不是有些不靠谱

2014世界杯对于大数据人工智能是个分水岭是元年

微软谷歌百度都有相关的项目胜率<50%

为什么？

这个也可以作为，这个观点的背景与补充。

QQ群 247994767(delphi与halcon) 【zw版《delphi与halcon系列原创教程》,网址，cnblogs.com/ziwang/ 】 QQ：2592439395（zw） , delphi+halcon,图像分析神级配置, 分分钟秒杀 c+opencv,python+opencv,c+matlab，以及其他各种组合
相关阅读:
二人组
 对于软件工程的理解
 shell 远程链接
 shell变量
 shell教程
 正则表达式--练习
 git--版本库
 git-版本回退
 git--时光穿梭
 git安装
原文地址：https://www.cnblogs.com/ziwang/p/9500412.html

热门文章
web-分页
 django_admin
JSONP跨域 ajax请求
 ajax
MFC调试时无法解析外部类
 MFC线程
 MFC事件和线程
 MFC单文档带窗体创建
 电梯
 两人项目--贪吃蛇