所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。
处理海量数据的基本方法:
- 分而治之/hash映射 + hash统计 + 堆/快速/归并排序;
- 双层桶划分
- Bloom filter/Bitmap;
- Trie树/数据库/倒排索引;
- 外排序;
- 分布式处理之Hadoop/Mapreduce。
参考内容
- 教你如何迅速秒杀掉:99%的海量数据处理面试题. https://blog.csdn.net/v_july_v/article/details/7382693
- 十道海量数据处理面试题与十个方法大总结. https://blog.csdn.net/v_JULY_v/article/details/6279498