1、元数据的概念
传统定义上,元数据Metadata是关于数据的数据(data about data),在数据仓库中,元数据是描述数据仓库内数据的结构以及建立方法的数据,按其用途分为技术元数据和业务元数据。
元数据指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如修改跟踪数据、抽取调度数据、同步捕获历史数据等。
元数据描述了数据仓库的数据和环境。
一类是管理元数据(Administrative Metadata),它是对源数据及其内容、数据仓库主题、数据转换及各种操作信息的描述。
另一类是用户元数据(UserMetadata),它帮助用户查询信息、理解结果、了解数据仓库中的数据和组织。
技术元数据 :主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;
业务元数据 :主要包括业务术语、信息分类、指标定义和业务规则等信息;
管理元数据 :主要包括人员角色、岗位职责和管理流程等信息。
2、元数据的功能
2.1数据仓库内容的描述
为了能够描述数据仓库中的数据以及数据间的各种复杂关系,元数据定义了DW的一系列内容。元数据描述了数据仓库中有什么数据及数据间的关系,它们是用户使用和系统管理数据仓库的基础。
2.2定义抽取和转化
元数据可以用来生成源代码以完成数据的转换工作,即完成由操作型数据转换生成以特殊形式存放的、面向主题的数据仓库数据。
元数据中的抽取表映射和抽取域映射定义了进行实际抽取转换工作的过程。
数据仓库管理核心是:利用该组元数据所定义的抽取过程生成某种语言的源代码,然后编译成可执行的程序以完成数据的抽取工作。其核心也可直接以解释的方式从元数据存储中读出每个抽取步处理过程,从而进行数据转换。
2.3基于商业事件的抽取调度
抽取调度是指什么时间进行从源数据到DW的抽取工作,元数据必须对数据的抽取安排加以说明。
2.4数据质量保证
元数据必须提供一个机制,即针对特定应用并根据用户确立的数据容忍程度来提醒用户是否采用该数据进行决策。