https://mp.weixin.qq.com/s/Ei6kKzu2-6WjBaMcIoTj4g
解秘 Google 工程师的大数据处理方法论 | 极客时间
如果在处理大规模数据的时候没有自己的深层次思考,确实很容易陷入误区。而目前大家对于大数据处理的理解误区,一般有以下几种:
1. 低估了数据处理的重要性。我在 Google Brain 的 AI 应用领域工作,切身感受到没有高质量的数据处理,人工智能只有人工没有智能。例如在语义理解上,Google 就曾犯过这样的错误,直到被一家德国的小公司超过,才认识到高质量的数据标注和处理的重要性。
2. 低估了数据处理工程师在组织架构上的重要性。大数据领域泰斗级人物 Jesse Anderson 曾做过一项研究,一个人工智能团队的合理组织架构,需要 4/5 的数据处理工程师。其实,即使是一个写前端的工程师,很多工作还是数据处理。很不幸,很多团队没有认识到这一点。
3. 低估了数据处理规模变大带来的复杂度。很多人还没有遇到过“大规模”的问题,因此容易把问题想的过于简单。我在 Google 面试过很多优秀的候选人,他们对常见的编程问题可以很好的解决,但只要追问数据规模变大时怎么设计系统,他们的回答却并不让人满意。
4. 高估了上手数据处理的难度。一方面我们需要认识到大规模的数据处理是有复杂的因素的。但另一方面,有了正确的工具和技术理念,现在上手数据处理并不困难。在 Google,我见到很多应届生来了半年后也能轻松应对上亿的数据量。