个人目前的大数据的理解是分布式,具体到一些培训机构给出的教程,狭义上就是spark编程。
但是看了很多这些教程和书籍,对并行处理仍然有一些想不通的地方,比如GPU的cuda编程,线程和线程之间并行计算前后出现读写不同步的问题如何解决,加锁吗。
又比如map-reduce操作,往往书本和教程中给出的结点数据划分容易理解,但是比如外部排序操作,如何直观简洁地进行分布式外部排序合并的描述,一直以来都是困惑的问题。
还比如,复杂网络中标签传播,或者随机游走,如果是并行处理,用硬件如何进行处理数据的划分和处理边界值,也是一直没有理解的问题。