数据库设计的范式

数据库设计的范式
1.概念

设计数据库时，要遵循的一些规范。要遵循后边的范式要求，必须先遵循前边的所有范式要求。

设计关系型数据库时，遵从不同的规范要求，设计出合理的关系型数据库。这些规范被称作范式。越高的范式数据库的冗余度就越低。

关系数据库中的关系必须满足一定的要求，即满足不同的范式。

关系数据库有六种范式：第一范式（1NF）、第二范式（2NF）、第三范式（3NF）、巴德斯科范式（BCNF）、第四范式（4NF）和第五范式（5NF）。

满足最低要求的范式是第一范式（1NF）。

在第一范式的基础上进一步满足更多要求的称为第二范式（2NF），其余范式以次类推。

一般说来，数据库只需满足第三范式（3NF）就行了。

2.分类
- 第一范式（1NF）：无重复的列，数据库表的每一列都是不可分割的原子数据项，而不能是集合，数组，记录等非原子数据项。如果实体中的某个属性有多个值时，必须拆分为不同的属性
- 第二范式（2NF）：每张表只描述一件事情，
　　　　前提：满足第一范式
　　　　在第一范式的基础上，非码属性必须完全依赖于候选码（在第一范式的基础上消除非主属性对主码的部分函数依赖）
　　　　第二范式需要确保数据库表中每一列都和主键相关，而不能只与主键的某一部分相关（主要针对主键而言）。
- 第三范式（3NF）：与主键直接相关，不得间接相关
3.为什么需要设计
当数据库比较复杂的时候，就需要设计
糟糕的数据库设计
- 数据冗余，浪费空间
- 数据插入和删除都比较麻烦，且容易产生异常【屏蔽使用物理外键】
- 程序的性能差
良好的数据库设计：
- 节省内存空间
- 保证数据的完整性
- 方便我们开发系统
软件开发中，关于数据库的设计
- 分析需求：分析业务和需要处理的数据库的需求
- 概要设计：设计关系图E-R
设计数据库的步骤：(以个人博客为例)
- 收集信息，分析需求
  
  用户表(用户登录注销，用户的个人信息，写博客，创建分类)
  
  分类表(文章分类，谁创建的)
  
  文章表(文章的信息)
  
  评论表
  
  友情链接表(友情连接信息)
  
  自定义表(系统信息，某个关键字，或者一些主字段) key:value
- 标识实体类（把需求落地到每个字段）
- 标识实体之间的关系
  
  写博客：user --> blog
  
  博客分类：user --> category
  
  关注：user --> user
  
  友链：links
  
  评论：user-user-blog
4.三大范式详解
为什么需要数据规范化？
- 信息重复
- 更新异常
- 插入异常
  
  无法正常显示信息
- 删除异常
  
  丢失有效的信息
（1）第一范式：保证每一列不可再分

要求数据库表的每一列都是不可分割的原子数据项。
原子性：保证每一列不可再分
在上面的表中，“家庭信息”和“学校信息”列均不满足原子性的要求，故不满足第一范式，调整如下：

下表“系”这一列也是可以分割的，不满足第一范式

改成这样，就符合第一范式了

不过这个数据还存在其他问题：
- 存在非常严重的冗余（重复）：姓名，系名，系主任
- 数据添加存在问题：添加新开设的系和系主任时，数据不合法，（还没招收学生）
- 数据删除存在问题：张无忌同学毕业了，删除数据，会将系的数据一起删除
（2）第二范式：每张表只描述一件事情

前提：满足第一范式
在第一范式的基础上，非码属性必须完全依赖于候选码（在第一范式的基础上消除非主属性对主码的部分函数依赖）
第二范式需要确保数据库表中每一列都和主键相关，而不能只与主键的某一部分相关（主要针对主键而言）。

几个概念：

函数依赖：
- A-->B，如果通过A属性（属性组）的值，可以确定唯一B属性的值，则称B依赖于A
例如：学号-->姓名（序号被姓名所依赖），但是学号不被分数所依赖，因为学号+课程名称，才能确定分数，即：（学号，课程名称）--> 分数
- 完全函数依赖：A --> B，如果A是一个属性组，则B属性值的确定需要依赖于A属性组中所有的属性值。
例如：学号和课程名称被分数完全依赖
- 部分函数依赖：A --> B，如果A是一个属性组，则B属性值的确定只需要依赖于A属性组中的一些值即可。
例如：（学号，课程名称）--> 姓名
- 传递函数依赖：A --> B，B --> C，如果通过A属性（属性组）的值，可以确定唯一B属性的值，在通过B属性（属性组）的值可以确定唯一C属性的值，则称C传递函数依赖于A
例如：学号被系名依赖，系名被系主任依赖，学号 --> 系名，系名 --> 系主任
- 码：如果在一张表中，一个属性或属性组，被其他所有属性所完全依赖，则称这个属性（属性组）为该表的码
例如：该表中的码为：（学号，课程名称）
- 主属性：码属性组中的所有属性
- 非主属性：除过码属性组的属性
系名，系主任是只依赖于学号，因此对于码（学号，课程名称）来说是部分依赖，分数是完全依赖于码（学号，课程名称）

再来看一下，第二范式的定义：在第一范式的基础上消除非主属性对主码的部分函数依赖

我们改造上面的表

这样就消除了原来的表中部分依赖

第一张表，分数就是非主属性

第二张表，姓名，系名，系主任都是非主属性

这样，上面存在的三个问题，第一个问题可以解决，剩下两个问题：
- 存在非常严重的冗余（重复）：姓名，系名，系主任
- 数据添加存在问题：添加新开设的系和系主任时，数据不合法
- 数据删除存在问题：张无忌同学毕业了，删除数据，会将系的数据一起删除
（3）第三范式：与主键直接相关，不得间接相关

在2NF基础上，属性不能传递依赖于主属性（属性不依赖于其它非主键属性），即在2NF基础上消除传递依赖

第三范式需要确保数据表中的每一列数据都和主键直接相关，不能间接相关

我们在学生表中发现，学号被系名依赖，系主任依赖于系名，这样就存在传递依赖，系主任传递依赖于学号，因此要消除这样的传递依赖

因此我们再来分出一张系表

再来看刚才的三个问题：
- 存在非常严重的冗余（重复）：姓名，系名，系主任
- 数据添加存在问题：添加新开设的系和系主任时，数据不合法
新开的系和系主任，这个数据是合法的（这样就不管还有没有招收学生）。
- 数据删除存在问题：张无忌同学毕业了，删除数据，会将系的数据一起删除
删除张无忌这个学生的信息，不影响系名和系主任的信息

刚刚三个问题被全部解决掉了。

在以后的数据库设计过程中，可以使用这三大范式验证这个数据库设计是否合理

5.规范性和性能的问题

关联查询的表不得超过三张表
- 考虑商业化的需求和目标，(成本，用户体验) 数据库的性能更加重要
- 在规范性能的问题的时候，需要适当考虑一下规范性！
- 故意给某些表增加一些冗余的字段(从夺标查询中变成单表查询)
- 故意增加一些计算列（每次增加自动加1，从大数据量降低为小数据量查询）
参考：http://3ms.huawei.com/km/blogs/details/9252227?l=zh-cn
相关阅读:
生成XML文件。
使用EHCache需要注意的几个问题
 Spring @Value取值为null或@Autowired注入失败
 Windows安装mosquitto
Linux学习
 hive 日期格式转换
 正则表达式验证字符串是否为IP
string字符串根据指定字符进行截取转成对应的集合
 CENTOS7自用简单配置
 git的简单使用
原文地址：https://www.cnblogs.com/GumpYan/p/14097063.html

数据库设计的范式

1.概念

2.分类

3.为什么需要设计

4.三大范式详解

（1）第一范式：保证每一列不可再分

（2）第二范式：每张表只描述一件事情

（3）第三范式：与主键直接相关，不得间接相关

5.规范性和性能的问题