中国人民大学教授杜小勇：One Size Does not Fit All?

中国人民大学教授杜小勇：One Size Does not Fit All?

2019数据技术嘉年华于11月16日在京落下了帷幕。大会历时两天，来自全国各地上千名学术精英、数据库领袖人物、数据库专家、技术爱好者在这里汇聚一堂，围绕“开源 • 智能 • 云数据－自主驱动发展创新引领未来”的大会主题，共享"开源自研，云和数据，智能运维，智能业务，数据前沿，用户实践"六大主题盛宴。

在此小编为大家精心准备了“2019数据技术嘉年华——大咖演讲系列整理”，没来参会的朋友们，可以通过我们的系列报道，了解在本次大会中最新的数据行业资讯。爱好技术的朋友们不可错过哦~

本文是小编依据杜小勇博士在“2019数据技术嘉年华”大会现场演讲速记稿整理而来。

关注公众号“数据和云”，回复：2019dtc ，更多精彩ppt等你下载！（PPT还在不断更新当中，请持续关注）

中国人民大学教授，博士生导师，工学博士杜小勇老师

非常高兴有机会来到“2019数据技术嘉年华”的会场。我在四年前就有一个设想：想要加强学术界和应用界、企业界的交流。所以每年在数据库的学术会议上，都会有一个来自企业界的报告，每年大会上我都听了，我个人觉得还是很有收获的。比如有一年报告特别谈到在互联网企业运维，包括数据库在内的众多的开源数据库存在巨大的压力。但是我们很多学生不敢尝试实践，他觉得和写一篇论文差得很远，这样的问题他解决不了。

最近遇到盖先生是在华为的一次活动上，我发现很奇怪，Oracle工程师怎么跑到华为会议上？我发现盖先生在改变他的思路，他今天的主题是自主、创新，而且他也主动去拥抱了华为的数据库，也是华为第一家合作商，也就是说他愿意为国产数据库服务。所以当时盖先生邀请我来做报告，我非常高兴，我希望去做这样的努力，加强学术界和企业界的合作。所以这是我今天来做这个报告的一个最主要的初衷。

讲什么呢？学术界如果讲报告最喜欢讲的是论文，我想那样讲的话，那肯定就把会场一半的听众都要讲跑了。所以我今天也是跟之前盖先生交流过，讲宏观一点，讲我们在学术界怎么去看待数据库的发展，希望可以给听众一些启示。因为我觉得中国的企业到了要改变的时候了，他不再仅仅是拿来就要用，用好就行了。特别是我们的大企业，必须要创新。今天的题目用了“One Size Does not Fit All?”，他是个肯定句，我加了个“问号”。这个话是图灵奖获得者说的。

我们在讨论关系数据库到底是什么？有两股力量，在数据库、学术界比较主流。一个是新型的数据库，新的模型，比如：对象数据库，XML数据库。所以那时很多探索，觉得下一代数据库到底是什么？但是主流数据库应该是关系数据库。第二个是，专用系统。现在需求太多，主要是做专用型的。

我们来看看这两个趋势，第一个方向，在2017年VLDB题目上叫“Failed Aspirations in Database Systems”。这说明学术研究和产业不太一样，但是不能说探索没有意义，实际面向对象很多特性在我们关系数据库里也有体现。

第二个方向，Stonebraker研制的专用系统。Stonebraker为代表的开放了一系列的数据库系：c-store（后改名Vertica）column store系统，适用于OLAP，后被HP收购；h-store（后改名VoltDB）行存储数据库，适用于事务OLTP；StreamBase，流数据库，被TIBCO收购；SciDB，科学数据库，支持数组（array），呈现出一个很混乱的状况。

谷歌的三件套彻底改变了非结构化数据管理的生态。

确实这样做完以后，数据库界的批评声音是很大的，认为是严重的倒退。Stonebraker对Hadoop的批评之声特别大：丢失了大多数DBMS的特性；不支持事务或者只支持简单的事务；较低级的程序设计范型；缺乏应用开发工具和环境；没有索引等等。

出路何在？我们要去思考。这也是我今天讲的一个主题。我们还应保持初心，就像“数据库从哪儿来的？”这个问题，简单回顾一下数据历史可以得到这样的结论：数据库是应用驱动的创新。我画了一个图，可能跟教科书的分态不太一样，教科书按模型分态，我是按应用角度分态的。从Store&Access到后来OLTP要解决一次性的问题，到OLAP要解决复杂分析的问题，到了第四代Hadoop的时代要解决非结构化数据的存储和管理的问题，今天要面对什么样的应用是它的主流应用。

OLML，这个词是我构建的词，我希望它能成为未来的流行词。OLML是什么东西？是Online Machine Learning，现在主流应用就应该是机器学习应用，海量数据上怎么获取数据，怎么训练模型，怎么去部署模型，怎么去更新模型，这些东西是我们未来的主流应用。所以我期待，有一个像SQL语言去获得或者是去描述一个数据子集，去描述学习任务，能够很快的、实时的更新模型，看到效果。

OLML和OLTP、OLAP对应起来，有可能模型不一样，任务不一样。这里有一个证据，我把ICSE 2019最佳论文跟大家分享一下，这是微软很多人一块完成的 Case Study，他是从软工具角度上来说的。一个是pipeline支持，在微软内部机器学习是这样的过程，花了很多时间是在数据准备上。

我想让大家看到的是，一个是红字的部分，他说的是数据管理和模型管理应该结合起来，不要把这两个子集分离开来。最好是在数据库平台上结合，因为数据库是一个平台。我建议大家可以把文章拿来读一读，我觉得还是有很多启发的。

支撑OLML的新型数据库长啥样？支持多数据模型、支持存算分离、支持自优化自适应自管理、支持混合架构。

多数据模型。这个需求很自然，因为你可能有各种各样的数据，对于用户来说，他不需要知道这个数据是怎么组织的，这个数据是怎么存的，可以使用，怎么在一个系统里支持不同数据类型.。

存算分离。存储与计算分离，这已经是大家公认的方向了。对于数据库来说，有更深刻的挑战。

自适应优化。现在这个话题谈得比较多，实际查询优化这件事情是支撑关系数据库成功的重要的支柱之一。以前我们做的比较简单，Rule-based、Cost-based...现在我们横向扩展问题解决了，因此ML-based驱动的方法在未来数据库管理里面会有很大的用法。

混合架构。我们都知道，现在高速网络比IO都快。计算芯片也一样，不再仅仅是CPU了，GPU、FPGA各种各样人工智能芯片都在出现，在这样的数据管理过程中，模型训练的负载下，这是学术界或者产业界都很清楚的，你对于不同类型的负载用不同的计算器需要模式差异很大，比如规则的数据放在GPU处理比较好，如果说很杂乱无章的说不定CPU更好。所以这种差异，存在有优化的空间。所以我觉得这方面还是有很大的空间可以去扩展。

最后展示一张照片，这是潘院士在我们科学大讲堂做报告时，他给我们人工智能学院院长赠了一幅字。现在确实到了一个时代的变化，不管是别人有我们没有，还是说别人没有我们也没有，我们都面临着一个“无人区”状态，在这样的情况下，高校天生的拥有创新的基因，要敢于“秀”出来，接受全世界“品头论足”。而企业在踏入无人区的时候，我觉得有一条很重要的路就是创新。

在计算机大会上我们邀请了阿里、华为、腾讯数据库老总一块坐下来探讨 中国国产数据库发展道路探索 的时候。其中有一点让我印象很深刻，不管走什么样的道路，创新是最重要的，如果没有创新，也就没有未来。所以我也借着今天的主题，我代表中国数据库学术界表达这样一个愿望，愿意和我们在座的企业界进行全方位的合作，当然我们也在成长中，我们也知道我们的力量还很薄弱，我们希望我们的数据库企业帮助我们一块去招揽人才。我们也和其他领域面临人才的竞争，只要我们一块努力，提供更多的机会，我相信我们有更多的老师、更多的学生会活跃在数据库的研究平台上。

谢谢大家，这是我的报告！
相关阅读:
(转)Ubuntu init启动流程分析
 读懂diff
vs2010 sp1
Git .gitignore文件的使用
 第一次尝试节奏跑（乳酸门槛跑）
放松跑、间歇跑、节奏跑和LSD
Tomcat6配置webdav协议
 Content-disposition
php5.3到php7.0.x新特性介绍
 随机生成字符串
原文地址：https://www.cnblogs.com/hzcya1995/p/13311883.html