数据库构思与设计规范
一、数据库模型构思(数据库设计步骤)
a) 数据库模型理解
数据库模型设计是编写软件就像建筑结构对于工程师们。工程师们学习所有的设计艺术比如浴室应该放哪和有多少个浴室,以及是否有浴室。如果这些结构设计留给土木工程师,他们也许会忘记这些浴室或者把问题遗留给居住的人们。这就非常类似数据库结构和与开发人员之间设计问题。
土木工程师们确保我们的建筑上的砖头不会砸到我们,而建筑师们让建筑
更加的适合居住。是什么导致我们在软件,数据库建模中不得不设计数据库模 型。本质上来说,设计过程中涉及具体的对象构建前把我们的思路写在纸上,
或者可能移动一些零件和部件以获取他们期待的设计。而一般的土木工程师
(开发人员)可能不会关注设计数百万吨的混凝土的预制结构。就类似数据库
模型的建立,你需要在构建之前和开始填充数据以及连接到应用程序之前建立
他的数据库模型。
数据库的设计是如此的重要因为所有应用程序都是针对数据库模型设计的,他们完全依赖于底层数据的结构。如果数据库模型在后一阶段有所改变,所有以数据库模型为基础的任何东西都有可能需要改变甚至全部重写。他们就需要非常大的财力和精力花费。设计数据库模型我们通常需要使用一些工具,流程图,图片,以及实体关系图(ERD)和任何能帮助我们确定设计思路的东西。
b) 确定(实现)的目标
确定目标可能是一个最重要的任务做任何项目的规划,无论是摩天大楼建筑的设计或数据库模型。你可以,当然,任何地方和刚刚开始进入你项目的设计。但是,这不是规划。你越是计划你要做,越可能最后的结果将满足您的要求。除了规划,您必须知道如何规划摆在首位。确定的目标是基本第一步是确定你怎样从A至B。
所以,我们必须知道要规划我们的步骤,也必须我们规划的步骤是什么(这些步骤的最终需求实现)。我提出下面一些点,以知道建立设计目标进行适当的关系数据库模型设计:
1. 首先,我们的目标是设计一个结构良好的数据库模型,他们易于阅读,容易理解。如果公司的一个数据库模型由50张A4的纸贴在整个墙壁上,这就是不合理的结构,因为他们不容易阅读和理解。
2. 数据完整性-完整性是一套数据库模型的规则,确保我们的数据在真实的数据库中不丢失,而这些数据之在必要的时候才能清除。
3. 同时支持有计划的查询和特殊查询以及没有计划的查询,当然越少特殊查询越好,在某些情况下(如非常高并发联机事务处理数据库),特殊查询可能要被完全禁止,或者转移到一个更合适的数据仓库平台。
4. 特殊查询可能导致严重的性能问题,所以不允许任何人在特设的应用控制联机事务处理数据库中做任何特殊查询的事情。
5. 支持业务目标-高度范式化的表结构不一定就代表业务结构。非范式化的,数据仓库,三维结构往往看起来更像业务运作需求。后者是可以接受的,因为一个数据仓库更容易受到特殊的查询管理,业务规划,和行政人员。特殊的查询在联机事务处理数据库中可能就是灾难性的业务。换句话说,不同类型的数据库,甚至是不同类型的应用,往往是更好的服务。
6. 为任何需要改变的行为提供足够的性能,无论是单个记录的变化还是高速批量的数据,都是很重要的。
7. 每个表在一个数据库模型中,都应该表现为一个主题或者是一个业务,不要过度设计。联机事务处理数据库可以侧分出更详细和更多的表,但并不总是。所以不要建立太多表。数据仓库很有可能因为被分为太多个表而崩溃。
8. 未来的发展必须始终是一个最严重的考虑,一些数据库可能以非常大的倍率来增长。如果数据仓库的增长是在一个潜在的可预见的未来中,那么设计就是成功的。否则性能问题会导致我们流失客户。
9. 未来的需求变化要能被适应,但是潜在的结构变化是很难预见的-比如不同类型的数据库模式的扩展和增强。有一些部分是不允许轻易的改变的。我们要根据公司的需求为未来的发展合适的粒度化和范式化数据库模型。修改数据库模型的结构可以为我们解决未来发展的问题,可是相反的,也为我们带来了新的问题。改变现有的结构,特别是表之间的关系变化,甚至有简单地增加新的字段都有可能影响应用程序,这个问题的最好处理方式是-编码的统一和范式化,但是这样可能就会导致整体性能的下降,当然我们可以通过黑盒测试对单元模块进行分析。
10. 如果你期望更改,尽量减少应用程序和数据库模型之间的依赖。这样才易于改变和增强未来变化中的数据库模型和应用程序代码。改变底层数据库模型可能会导致巨大的维护费用,尽量减少应用程序代码和数据库模型之间的依赖,但是这可能导致效率低下的范式化的编码。无论是什么,数据库模型的变化几乎总是导致不愉快的应用程序代码的变更。重要的一点是,我们要建立应用程序以适和的数据库模型,当数据库模型变更的时候应用程序是不可避免的改变,但是他们要得到充分的计划和构思。
11. 总结:在设计数据库模型中满足所有这些目标可能有点困难,但是他们仅仅是有好有坏的准则而已。因此,使用良好的数据库模型设计目标来获取积极的成果如下:
i. 从业务的角度来看,最重要的目标是满足需求的应用。联机事务处理应用程序需要快速的响应时间和高并发的处理,换句话说,很多很多的用户,都在同一时间做同一事情。
ii. 缺乏数据完整性和不合理的数据库设计,容易导致查询的错误。所以,表和关系结构都应该是正确的。
iii. 应用程序能够更简单的建立就更好。一般来说,数据库模型和应用程序之间的依赖越少就好。
iv. 不断变化的数据和数据结构和表结构(元数据)始终是是一个问题,从业务角度来看,数据本身的改变更为重要。如果表结构的改变很容易通常是很好的,但是元数据的改变往往会带来不利的影响无论是应用程序还是数据库结构。
c) 模型实现
有很多中方法可用于设计数据库模型。所有这些不同的办法包括了一些步骤,如下:
1. 需求分析-收集有关数据的信息,功能需求,特殊需求,如预期的输出响应(预期结果),这些步骤包括所需要的,所以简单分析以后记录下来,以更好地了解客服的具体需求。
2. 概念抽象设计-这里我们可以使用自己需要的图形化工具,用形象化的图片表示实体关系图(ERD)。这个步骤包括建表,字段和表之间的关系。这个步骤也包括一些规范化问题。
3. 逻辑设计-创建数据库语言命令生成表的定义。可以用类似Power Designer,Rose,Rational之类的工具生成通用的DDL脚本。在特定的数据库引擎中建立数据库模型。
4. 微调阶段-这一步骤包括项目的索引优化,规范化,以及可能出现的非规范化,安全处理,以及任何前面不涉及的步骤。
d) 总结,上述的三个步骤是我考虑开始设计一个数据库时候的构思步骤,从数据库模型的深入理解->实现数据库模型的通用目标->模型的具体实现来完成我们在数据库构建阶段的任务,我们可以通过下图来理解这种构思
上图中实现我们的整个数据库建模的过程,当然我们在模型的具体实现中有如下图可以表示其具体的流程:
,在下节中,我们讲细化讨论每个步骤,总体上看进一步指出,说明如何处理数据库建模。。
二、数据库模型实现(数据库设计实施)
a) 需求分析阶段
您可以创建一个优雅且适当的数据库模型,明确定义对象,使用了一套明确
定义数据库设计方法步骤。优雅的解决方案,但是,必须是切实可行的,有益的。必须明白,你正在设计的是实际应用,而不是优雅,和最优雅解决方案并不总是以最实际的。必须了解的性质,业务至高无上的,以了解如何最好地构建的企业在数据库中模式。所以我提到三点:
i. 任何类型的政策组织的任何形式和各级别的组织关系。
ii. 任何类型的计算或公式
iii. 任何类型的业务规则(例如适用需求规定的规则,或者是行业标准的需求)
业务规则在数据库建模中是至关重要的,比如他定义了一些业务规则,比如不允许空值,建立表表之间的外键关系等等,业务也就是数据库模型的数据源。我们建立数据库模型都是依据在业务规则上的,这是最最最重要的一点,大家必须时刻围绕需求来设计数据库,这就是原则。
b) 概念设计阶段
通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型,可以用E-R图表示。
概念模型用于信息世界的建模。概念模型不依赖于某一个DBMS支持的数据模型。概念模型可以转换为计算机上某一DBMS支持的特定数据模型。
概念模型特点:
(1) 具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识。
(2) 应该简单、清晰、易于用户理解,是用户与数据库设计人员之间进行交流的语言。
概念模型设计的一种常用方法为IDEF1X方法,它就是把实体-联系方法应用到语义数据模型中的一种语义模型化技术,用于建立系统信息模型。
使用IDEF1X方法创建E-R模型的步骤如下所示:
i. 第零步——初始化工程
这个阶段的任务是从目的描述和范围描述开始,确定建模目标,开发建模计划,组织建模队伍,收集源材料,制定约束和规范。收集源材料是这阶段的重点。通过调查和观察结果,业务流程,原有系统的输入输出,各种报表,收集原始数据,形成了基本数据资料表。
ii. 第一步——定义实体
实体集成员都有一个共同的特征和属性集,可以从收集的源材料——基本数据资料表中直接或间接标识出大部分实体。根据源材料名字表中表示物的术语以及具有“代码”结尾的术语,如客户代码、代理商代码、产品代码等将其名词部分代表的实体标识出来,从而初步找出潜在的实体,形成初步实体表。
iii. 第二步——定义联系
IDEF1X模型中只允许二元联系,n元联系必须定义为n个二元联系。根据实际的业务需求和规则,使用实体联系矩阵来标识实体间的二元关系,然后根据实际情况确定出连接关系的势、关系名和说明,确定关系类型,是标识关系、非标识关系(强制的或可选的)还是非确定关系、分类关系。如果子实体的每个实例都需要通过和父实体的关系来标识,则为标识关系,否则为非标识关系。非标识关系中,如果每个子实体的实例都与而且只与一个父实体关联,则为强制的,否则为非强制的。如果父实体与子实体代表的是同一现实对象,那么它们为分类关系。
iv. 第三步——定义码
通过引入交叉实体除去上一阶段产生的非确定关系,然后从非交叉实体和独立实体开始标识侯选码属性,以便唯一识别每个实体的实例,再从侯选码中确定主码。为了确定主码和关系的有效性,通过非空规则和非多值规则来保证,即一个实体实例的一个属性不能是空值,也不能在同一个时刻有一个以上的值。找出误认的确定关系,将实体进一步分解,最后构造出IDEF1X模型的键基视图(KB图)。
v. 第四步——定义属性
从源数据表中抽取说明性的名词开发出属性表,确定属性的所有者。定义非主码属性,检查属性的非空及非多值规则。此外,还要检查完全依赖函数规则和非传递依赖规则,保证一个非主码属性必须依赖于主码、整个主码、仅仅是主码。以此得到了至少符合关系理论第三范式的改进的IDEF1X模型的全属性视图。
vi. 第五步——定义其他对象和规则
定义属性的数据类型、长度、精度、非空、缺省值、约束规则等。定义触发器、存储过程、视图、角色、同义词、序列等对象信息。
c) 逻辑模型设计阶段
将概念结构转换为某个DBMS所支持的数据模型(例如关系模型),并对其进行优化。设计逻辑结构应该选择最适于描述与表达相应概念结构的数据模型,然后选择最合适的DBMS。
将E-R图转换为关系模型实际上就是要将实体、实体的属性和实体之间的联系转化为关系模式,这种转换一般遵循如下原则:一个实体型转换为一个关系模式。实体的属性就是关系的属性。实体的码就是关系的码。
数据模型的优化,确定数据依赖,消除冗余的联系,确定各关系模式分别属于第几范式。确定是否要对它们进行合并或分解。一般来说将关系分解为3NF的标准,即:
表内的每一个值都只能被表达一次。表内的每一行都应该被唯一的标识(有唯一键)
。表内不应该存储依赖于其他键的非键信息。
d) 总结:
设计数据库之前(需求分析阶段)
1) 理解客户需求,包括用户未来需求变化。
2) 了解企业业务类型,可以在开发阶段节约大量的时间。
3) 重视输入(要记录的数据)、输出(报表、查询、视图)。
4) 创建数据字典和ER 图表
数据字典(Data Dictionary,简称DD)是各类数据描述的集合,是关于数据库中数据的描述,即元数据,不是数据本身。(至少应该包含每个字段的数据类型和在每个表内的主外键)。
数据项描述: 数据项名,数据项含义说明,别名,数据类型,长度,取值范取值含义,与其他数据项的逻辑关系
数据结构描述: 数据结构名,含义说明,组成:[数据项或数据结构]
数据流描述: 数据流名,说明,数据流来源,数据流去向, 组成:[数据结构],平均流量,高峰期流量
数据存储描述: 数据存储名,说明,编号,流入的数据流,流出的数据流,组成:[数据结构],数据量,存取方式
处理过程描述: 处理过程名,说明,输入:[数据流],输出:[数据流],处理:[简要说明]
ER 图表和数据字典可以让任何了解数据库的人都明确如何从数据库中获得数据。ER图对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对SQL 表达式的文档化来说这是完全必要的。
我的总结:
开发一个数据库是对整个系统来说只非常重要的,就如我之前所说的做软件类似于做一个建筑工程,数据库扮演底层数据结构(建筑结构)基的角色,一旦不合理的数据设计将会影响上层应用程序的开发,所以开发一个良好设计的数据库系统是整个软件过程中的重中之重。我对整个过程是这样构思的:
首先,最重要的就是要了解“我们要做什么”的问题,我们开发一个系统,客户最关注的就是业务流程。所以了解“我们要做什么”就必须时刻关注和了解客户的需求,需求阶段是对未知已知的行业领域进行信息的获取的过程,经过需求分析,我们才能初步的建立整个系统的构想。在这里我要提一点就是,在软件已经发展成熟的时期,参考其他一些优秀的数据库设计也是非常重要的,在设计一个新数据库时,你不但应该仔细研究业务需求而且还要考察现有的系统。大多数数据库
项目都不是从头开始建立的;通常,机构内总会存在用来满足特定需求的现有系统(可能没有实现自动计算)。显然,现有系统并不完美,否则你就不必再建立新系统了。但是对旧系统的研究可以让你发现一些可能会忽略的细微问题。一般来说,考察现有系统对你绝对有好处。
是我们要时刻关注客户的需求变化,可以随时的改变一些业务规则,这就要求我们设计出有弹性的数据库模型。先,你可以清楚地了解应用设计在哪个地方应该更具灵活性以及如何避免性能瓶颈;其次,你知道发生事先没有确定的需求变更时用户将和你一样感到吃惊。
在你百分百地确定系统从客户角度满足其需求之前不要在你的ER(实体关系)模式中加入哪怕一个数据表。了解你的企业业务可以在以后的开发阶段节约大量的时间。一旦你明确了业务需求,你就可以自己做出许多决策了。
一旦你认为你已经明确 了业务内容,你最好同客户进行一次系统的交流。采用客户的术语并且向他们解释你所想到的和你所听到的。同时还应该用可能、将会和必须等词汇表达出系统的关系基数。这样你就可以让你的客户纠正你自己的理解然后做好下一步的ER 设计。
其次,设计ER图,一定要花点时间创建ER 图表和数据字典。其中至少应该包含每个字段的数据类型和在每个表内的主外键。创建ER 图表和数据字典确实有点费时但对其他开发人员要了解整个设计却是完全必要的。越早创建越能有助于避免今后面临的可能混乱,从而可以让任何了解数据库的人都明确如何从数据库中获得数据。有一份诸如ER 图表等最新文档其重要性如何强调都不过分,这对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对SQL 表达式的文档化来说这是完全必要的。
一张图表胜过千言万语:开发人员不仅要阅读和实现它,而且还要用它来帮助自己和用户对话。
在定义数据库表和字段需求(输入)时,首先应检查现有的或者已经设计出的报表、查询和视图(输出)以决定为了支持这些输出哪些是必要的表和字段。举个简单的例子:假如客户需要一个
报表按照邮政编码排序、分段和求和,你要保证其中包括了单独的邮政编码字段而不要把邮政编码糅进地址字段里。
实体关系表示了我们在需求分析阶段以后的对不同实体之间的联系,我们要深入业务规则,确定他们之间对应的关系,比如用户和订单就是一个一对多的关系,一个用户可以用多个订单,而订单和订单中的商品也是一个一对多的关系,深深的研究业务规则获取比较合适的关系对以后的整个业务走向也是很重要的。
当然在建立实体的时候,我们还要考虑规范化问题,是不是该“数据冗余”来提高性能,带来维护困难,还是维护简单,牺牲性能,这都要针对特定的业务规则来实施,但是我们就一定要深入理解范式,以及范式的利弊,在设计过程中还要避免过度设计的问题。
最后,你可以开始下一步的物理设计了,这里面包括很多原则和经验问题,以及一些规范,我在下面就要提出来,按照整个规范来做将提高以后的开发效率和维护效率。下面图是我对这一小结的一个总结图: