大数据基础---数据存储发展史

一个文明的发展离不开数据，数据包括我们看到的，听到的，只要能存储的东西都称之为数据。

在没有计算机之前，我们只能通过器具，骨头，纸制品来进行存储。这些介质也限制了我们只能存储文字和手工绘画，我们一起来看看古代都有哪些存储介质：

一.古代的存储介质

现存中国最早的文字，大多是书写或契刻在兽骨和龟甲上的刻辞。甲骨文字是从公元前14世纪后期盘庚十四年迁都安阳后，到公元前11世纪中叶帝辛灭亡前这一时期的记录。

金文通常记载于彝器、乐器、兵器、度量衡、镜、钱币、印章之上，其中以彝器所载文字最长。

较早期的铜器，无论是圆形或方形，三足或四足，铭文大多铸在器物的内部。

金文的字汇不比甲骨文为多。根据容庚的《金文编》和《续编》，周代和周代以前的金文，今日可以通读的越有1800多字，不可通读的约有1200字；秦、汉的金文，可读的将近1000字，不可读的有300余字。

秦汉以后，石刻逐渐取代额咯青铜器在记功、追远等方面的用途。

竹简和木牍是中国最早的书写材料。在中国传统文化上，简牍制度有其极为重要和深远的影响。不仅中国文字直行书写和自右至左的排列顺序渊源于此，即是在印刷术发明以后，中国书籍的单位、术语，以及版面上的所谓“行格”的形式，也是根源于简牍制度而来。

到了殷商时代，甲骨卜辞中常见“丝”、“蚕”、“帛”、“桑”等字。在安阳殷墟中发现的丝帛残迹，经过仔细的研究，证明殷人的纺织技术已很进步。在长沙和其它几处楚墓中，新近发现许多丝帛遗物，证明在战国、汉初不仅已有精美的缣帛，而且还有花纹复杂的织锦和刺绣。

东汉元兴元年（公元105年），蔡伦将制纸方法奏闻和帝，开启了纸质时代。

随着人类文明的进步，迎来了电子时代，我们可以通过键盘录入文字，还可以将视频图片音频上传到网站，另外还有一些信息采集器，比如摄像头，遥感，这些信息都会源源不断的保存到服务器里面，我们仅仅通过一部手机就可以浏览巨量的信息，随着数据的增加，存储的方式也在悄悄改变！

最开始公司个人仅仅通过word，excel，ppt就能记录一些信息。但是随着数据的增多，这样的存储维护起来需要耗费很大的精力，而且不便于查询和搜索。于是产生了关系型数据库。

关系型数据库包括了SqlSerer，Oracle，MySql。它们通过把现实的物品抽象化，比如记录书籍就抽象成作者，文章标题，文章内容，文章图片等关键属性，这些属性构成一个个结构存储到数据库中。叫关系型数据库的原因是各个物品之前，属性之前都是有关联的，就像人，不可能独立存在。

随着数据的增加，关系型数据库的缺点也渐渐暴露无遗，首先看下它的结构：

关系型数据库查询流程图

（关系型数据库搜索流程图）

从上图可以看到，关系型数据库为了提高查询速度使用了B+树，大大提高了查询速度，但是这也带来了一个问题就是B+树存储在内存中，索引存储在磁盘中，这样查询就会进行内存和磁盘交互，带来了一定的瓶颈。

再一个随着大数据的到来，这种结构化数据因为耦合性大，不利于扩展分布式部署，查询缓慢，所以催生了非关系型数据库的发展。

关系型数据库中的事物遵循ACID原则：

A代表原子性：比如张三给李四转账，这整个事情要不全部成功，要么全部失败，不能出现张三转过去了，李四没收到。

C代表一致性：这个理解的不深刻，大概意思就是保证结果相同，一般像分布式部署，我们查询的结果要一致。

I代表独立性：事物之间是独立的，也就是事物可以嵌套事物，里面的事物执行成功并提交了，那么这个结果就改变了，无论外面的这个事物是否成功，即使失败也不影响内部事物。

D代表持久性：修改的数据都会存在磁盘里面，这样的数据即使重启也不会像内存似的丢失数据。

非关系型数据库顾名思义，它的数据之间是没有直接关系的，这对于数据的压缩，分布式部署提供了便利。同时也提高了查询速度。

数据库分为了键值对数据库，列族数据库，文档型数据库还有图形数据库，如下所示：

分类	相关产品	应用场景	数据模型	优点	缺点
键值数据库	Redis、Riak	内容缓存，如会话、配置文件、参数等；频繁读写、拥有简单数据模型的应用	<key,value> 键值对，通过散列表来实现	扩展性好，灵活性好，大量操作时性能高	数据无结构化，通常只被当做字符串或者二进制数据，只能通过键来查询值
列族数据库	Bigtable、HBase、Cassandra	分布式数据存储与管理	以列族式存储，将同一列数据存在一起	可扩展性强，查找速度快，复杂性低	功能局限，不支持事务的强一致性
文档数据库	MongoDB、CouchDB	Web 应用，存储面向文档或类似半结构化的数据	<key,value> value 是 JSON 结构的文档	数据结构灵活，可以根据 value 构建索引	缺乏统一查询语法
图形数据库	Neo4j、InfoGrid	社交网络、推荐系统，专注构建关系图谱	图结构	支持复杂的图形算法	复杂性高，只能支持一定的数据规模

非关系型数据库分布式符合CAP原则。

C是一致性：相同的查询语句，在不同的机器上执行，得到的结果相同。

A是可用性：查询的服务器是可用的，无论是返回成功也好，失败也好。

P是分区容错性：服务器之间是可以通信的，并且都通讯顺畅。
系列传送门