统计学发展方向的选择
摘要: 看这题目,多吓唬人。又是方向,又是选择。一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难。为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向, ...
看这题目,多吓唬人。又是方向,又是选择。一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难。为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向,确实关乎取舍。或者,至少关乎我自己的研究团队(小二十号兄弟姐妹)的方向和选择!
首先给大家简单介绍一点背景知识,小小吐槽一下现在统计学正面临的挑战。先从方法论说起。统计学的方法论主要依赖数学,尤其是概率论。其中又以大数定理和中心极限定理被使用的最为广泛。值得一提的是,统计学用数学做工具,但不是数学。这就像物理学会用到很多数学工具,但物理学不是数学。这还可以从国外成熟大学的学科设置来看,统计学很少跟数学系待在一起。数学家追求的是数学逻辑上的优美,以及挑战性。从这个角度看,统计学实在不优美,也没啥挑战性。整来整去,不就是大数定理跟中心极限定理吗?所以,统计学家的工作,数学家会欣赏的可能性不大。我想,这是可以理解的,毕竟大家的关注点不一样。那统计学家关注什么呢?
统计学家说:我们关注实际应用!这句话理直气壮地说了几十年。直到最近,好像受到一点挑战(°_°)…之前我的一篇文章提到,统计学的发展主要受到:产业变革,技术进步,以及制度环境驱动。这是统计学应用的沃土!但是最近,当这些沃土出现的时候,发现有一批人,他们比统计学工作者更早更快滴开垦了这片沃土。他们是谁?他们是一批实干的计算机工作者。计算机工作者首先接触大数据沃土,这是不可避免的。因为,大数据就要数据仓库啊,谁做?当然得计算机专家做。做完了捎带整整数据,做点简单的描述统计,这有啥难。统计学家要模型算法?这也不难,千万不要认为这是你们的专利,不就几个回归模型嘛,算法也不复杂。再不行,咱自己开发几个跟统计学模型关系不大的算法来,例如TREE, SVM, RANDOM FOREST啥的。预测效果也相当不错啊!你看,统计学家能做的模型,似乎计算机专家都可以做,或者找到替代品。但是,计算机专家可以做的,例如数据仓库,统计学家可绝对做不了,太伤心了!让我找个角落哭会去,555555
看到问题没有?统计学快要被计算机替代了!这不是我一个人的看法,这是很多统计学同仁的看法。当然我们这个看法不一定对,但是可能反映一些现状。例如在美国,有几所很好的统计系,他们新招聘的统计学教员中有计算机博士。但是,似乎没有听说过某个一流计算机系招聘统计学博士。怎么办?办法一,就这样了,如果山雨欲来,那就等死吧。这个办法太消极了,太负能量了,没人同意。方法二,加强计算机训练,尤其以HADOOP(Map-Reduce)为代表的并行存储和计算理论。大家觉得怎样?是不是方法二靠谱多了。而事实上,方法二确实是国内外,很多统计学主导的大数据教学项目的实施重点。有学者甚至认为这是大数据时代,统计学研究的一个发展重点。我本人,曾经是这个想法的积极支持者。但是,我最近似乎有点动摇(°_°)…,为什么?
第一,毋庸置疑,在大数据时代,统计学工作者需要多学点计算机技术,好解决大数据分析中的生活自理问题。但是,我认为这不应该成为一个统计学发展的重要方向。为什么?基于两个判断。
【1】这条路似乎没啥希望。因为,在这条路上,同计算机专家相比,统计学工作者,没有半点优势。我们输在起跑线上,还不是一点半点。
【2】随着计算机技术的进步,现在认为很复杂的(例如)分布式存储和计算,将被一些成熟的软件产品极大地简化,甚至傻瓜化。如果是这样,相关的计算机理论知识(例如:Map-Reduce)就不必要了。
更进一步地解释一下【2】,我为什么相信它?首先,我相信市场的力量。市场上绝大多数数据分析工作者,不具备大数据存储计算的专业知识,比统计学者还要差。因此,傻瓜化的大数据分析产品,一定是市场热烈欢迎的产品。其次,在我的周围,已经看到几个优秀的创业团队,他们正在这个方向努力前进,进展可喜!因此,我认为,在大数据相关的计算机基础知识方面,要积极投入但要有限度。对现有大数据计算机技术(例如:并行计算)的盲目跟进,不会成为统计学发展有前途的方向。
第二,那么,统计学发展的方向应该是什么呢?
我们不妨看看,在海外极其成功的生物统计学,它为什么发现的那么好?想来想去,就一个原因:生物统计学家懂生物医学知识!具体解释一下,国外的生物统计系一般设立在医学院,或者公共卫生学院下面。独立的生物统计系似乎没有听说过。这样的学科设置,保证了生物统计学者,会花很多时间去跟医生科学家等沟通。因此,他们学会了生物医学的专业语言,也就是我们常说的:业务知识。这使得生物统计学家,对生物医学研究的贡献独特,很难被替代。如果我们对生物统计学的理解是正确的,那么未来,统计学发展的正确方向应该是:学习并积累基于不同行业的业务知识。只有这样,我们才能同不同客户,根据他所处的行业,自由沟通。我们才可能了解需求,创造价值,并为统计学开疆拓土。沿着这样一个逻辑,大胆设想一下,类似于生物统计学,我们是否可以有互联网征信统计学?量化投资统计学?物联网(车联网)统计学?旅游交通统计学?我认为这才是统计学发展的前途所在!
总结一下:我认为统计学发展的未来,不是对现有大数据计算机技术(例如:并行计算)的盲目跟进。而应该是:学习并沉淀基于行业的业务知识,让统计学深入商业实践的各行各业(例如:物联网),为统计学的未来开疆拓土。
附本文作者简介:
王汉生教授现任北京大学光华管理学院商务统计与经济计量系教授,MBA项目嘉茂讲席教授,博士生导师,系主任;北京大学商务智能研究中心主任;微信公众号“狗熊会”创始人。王汉生教授先后担任多个学术刊物副主编 ,如The Annals of Statistics ,JASA,Computational Statistics & Data Analysis,Statistica Sinica ,Journal of Business and Economics Statistics,Science China: Mathematics 。并入选美国统计协会(American Statistical Association)
2014 年会士(Fellow)。
|