海量数据与小数据量的难点在哪里?
移动(复制,备份等):慢,复杂,移动失败后的影响比较更大;
占用空间大(磁盘,内存):慢,复杂,内存不够用,磁盘不够用;
检索:慢,复杂,从海量数据里面找到需要的数据慢;
插入更新:复杂,因为插入更新前要找到位置;
假设,就算海量数据使用了更好的压缩(但是会带来解压效率的问题)仍然是海量数据。
那么,我们的对海量数据存储以及基于它的检索的设计目标就是能够使得数据能够建立良好的索引(对各种查询友好,对插入和更新友好,当然这是不可能的,要权衡),另外,设计良好的格式(压缩,另外解压效率也好)进行存储和传输;
仅仅从技术上考虑还不足以形成一个相对完美的方案,还要考虑业务的特性,比如海量数据不可能都是热数据,不可能所有的数据都是要在线使用的,
因此可以将海量数据转换为非海量数据来完成我们的方案设计。
因此海量数据和小数据量的区别和难点表现在:对海量数据的管理过程中的操作相对容易被察觉到,时间拉的会更长,失败的影响会更大(主要还是恢复的时间相对较长,较容易察觉到),这就是之前我所说的:所有的设计都是在尽量让“看起来像那么回事,看起来更好”(见https://www.cnblogs.com/big1987/p/10767988.html)