海量数据处理面试题

什么是海量数据处理？

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。

再者，通过本blog内的有关海量数据处理的文章：Big Data Processing，我们已经大致知道，处理海量数据问题，无非就是：

---------------------

相关阅读:
《Linux/Unix设计思想》随笔 ——Linux/Unix哲学概述
C99 inline关键字
关于C++内存对齐
HLSL中constant variables的packing规则
全局照明算法基础——从辐射亮度到渲染方程
透视投影矩阵推导
基于光线追踪的渲染中景深（Depth of field）效果的实现
直线的光栅化算法
透视投影后的线性插值校正
linux内核编译与开发

原文地址：https://www.cnblogs.com/Amy-world/p/10870602.html