数据即算法?
2001年,微软的一个研究团队发表了一篇著名论文,论文阐述到对于一个有效的机器学习算法,只要给足够的数据进行训练,它们最后的准确率都是逐步上升接近100%的。所以不少人提出数据即算法?也正因为如此,大数据时代拉开帷幕,人们开始意识到数据是可以产生价值的,算法也开始对数据本身越来越重视,著名数据科学家维克托麦尔舍恩伯格说到:大数据时代最大的转变就是对待数据处理思维方式的三种转变,现在对数据的处理强调:
全样而非抽样、效率而非精确、相关而非因果。
现在大多数机器学习算法都是数据驱动型的,算法的性能高度依赖数据质量。对复杂问题而言,数据比算法重要,这一想法被Peter Norvig等人进一步推广,并于2009年发表论文《数据的不合理有效性》。不过获得大量数据不是一件容易的事,中小型数据问题依然非常常见,所以暂时不要抛弃算法。
算法为王?
然而AlphaGoZero的出现,似乎挑战了数据即算法这种说法,AlphaGoZero是一种基于增强学习的人工智能。AlphaGoZero在训练中人类没有给它输入任何数据,它的数据都是算法自行产生的starting from scratch,它从空白状态学起,在无任何人类输入的条件下,迅速自学围棋,自己与自己对弈,并以100:0的战绩击败前辈AlphaGo。对于有些问题即使没有数据,算法也可以生成数据。
不过围棋毕竟有特殊性在里面,算法强大的说法并不一定对所有领域都适用。但这个突破告诉我们算法本身依然很重要。再好的数据都要有高效优秀的算法作为辅助,才能最大程度发挥数据本身的作用。