关于工具,大家理解是一种可以用提高工作效率的,在大数据平台,工具也是很重要的,很多时候我们分析大数据涉及很多重复性的体力劳动,假如我们可以将一些操作工具化,可以大大提高开发的效率。 比较有名的工具,大家能想到的是 Mapreduce,帮我们实现程序并行化。Sql,帮我们很快实现一个Mapreduce。spark,帮助我们实现内存版本的mapreduce,以及其他数据处理。mpi,帮我们实现某些计算的并行化,tensorflow帮助我们快速实现模型训练并行化。机器学习并行化。多维分析工具,帮我们很快实现各种不同维度的报表展示。还有一种工具,数据挖掘的同学会更感兴趣,那就是标签提取工具。凡是能做成工具的,实现的都是一类数据分析工作,标签挖掘正常情况下,大家认为不同的数据挖掘方式不同,挖掘规则不同,很难用一个工具去帮忙,这就需要去提炼标签挖掘中的共性。将一些提炼方法规则化,将个性化的东西变为可配置的。这样可以降低挖掘人员的工作量,提高工作效率。