本书共分为四篇。前三篇分别对应数据血缘的理论、实现和应用:第一篇阐明数据血缘的概念,主要介绍有关数据血缘概念的综合知识;第二篇介绍如何实现数据血缘,包括一些关于实现数据血缘的可行性见解和建议;第三篇介绍如何使用数据血缘,利用数据血缘结果实现不同的业务目的。第四篇是关于“构建数据血缘业务案例”的研究,介绍如何将数据血缘落地到业务案例中。本书主要面向数据开发人员和数据管理人员,用于针对数据血缘及其应用领域拓宽思路。本书也适合具有技术背景的数据业务人员参考阅读,便于更好地理解业务需求和数据血缘需求。
Irina Steenbeek 博士是一位拥有超过 11 年经验的数据管理从业者。她的专业专长的关键领域是数据管理成熟度评估、数据管理框架的实施和数据血缘。 Irina 在 ERP 和 DWH/BI、管理咨询、财务和业务控制以及数据科学等软件实施方面拥有实践经验。多年来,她曾服务于全球机构以及不同领域的大中型组织,包括金融机构、专业服务和 IT 公司。2016年,她创立了Data Crossroads——一家数据管理培训和辅导服务企业。 Data Crossroads 专注于通过建立适合其业务目标和资源的有效数据管理框架来帮助公司改进决策。
王琤,Datablau(北京数语科技有限公司)创始人兼CEO,信通院数据资产专家委员会成员,数据资产管理实践白皮书主要撰写人之一,国资委数据要素专家组成员,复旦大学、北京航空航天大学客座讲师,曾任CA ERwin全球研发负责人。车春雷,高级工程师、信息系统分析师,在科技和数据领域有30余年工作经历,先后从事企业自动化、软件研发、网络设计、商业智能与企业级数据仓库、数据标准、数据质量、数据建模等工作,积累了丰富的数据管理经验。
引言………………………………………………………… 001
第一篇 阐明数据血缘的概念
第1 章 数据血缘的现有观点和方法分析… ……………………… 010
1.1 数据血缘和其他类似的概念 ……………………………………… 010
1.2 数据血缘组件 ……………………………………………………… 016
1.3 数据血缘与数据生命周期的关系 ………………………………… 018
1.4 数据血缘与数据管理能力和企业架构 …………………………… 019
1.5 DAMA-DMBOK2 关于记录数据血缘的建议 ……………………… 024
1.6 本书使用的概念 …………………………………………………… 025
第2 章 记录数据血缘的业务驱动因素… ………………………… 028
2.1 满足法规需求 ……………………………………………………… 028
2.2 业务变更 …………………………………………………………… 033
2.3 数据管理举措 ……………………………………………………… 034
2.4 透明性和审计需求 ………………………………………………… 034
第3 章 元模型的概念… …………………………………………… 036
3.1 数据和信息的概念 ………………………………………………… 036
3.2 元数据语境下的数据血缘 ………………………………………… 040
3.3 元模型的定义 ……………………………………………………… 042
第4 章 数据血缘元模型… ………………………………………… 045
4.1 数据血缘元模型的结构 …………………………………………… 046
4.2 业务层 ……………………………………………………………… 047
4.2.1 业务能力… …………………………………………………… 048
4.2.2 流程… ………………………………………………………… 049
4.2.3 角色… ………………………………………………………… 051
4.2.4 业务主题域(数据)… ………………………………………… 051
4.2.5 IT 资产(工具)… ……………………………………………… 051
4.3 与数据模型相关的挑战 …………………………………………… 053
4.4 概念层 ……………………………………………………………… 055
4.4.1 传统概念模型… ……………………………………………… 055
4.4.2 语义模型… …………………………………………………… 057
4.4.3 本书使用的概念层模型… …………………………………… 058
4.5 逻辑层 ……………………………………………………………… 059
4.5.1 传统逻辑模型… ……………………………………………… 059
4.5.2 解决方案模型… ……………………………………………… 061
4.5.3 本书使用的逻辑层模型… …………………………………… 061
4.6 物理层 ……………………………………………………………… 063
4.7 业务规则 …………………………………………………………… 064
4.8 数据血缘元模型的图形化表示 …………………………………… 066
第5 章 数据血缘类型… …………………………………………… 073
5.1 元数据血缘和数据值血缘 ………………………………………… 074
5.2 不同记录层级的数据血缘 ………………………………………… 075
5.3 横向和纵向数据血缘 ……………………………………………… 076
5.4 描述型和自动型数据血缘 ………………………………………… 076
5.5 各种数据血缘之间的相关性 ……………………………………… 077
第二篇 实现数据血缘
第6 章 使用九步方法论构建数据血缘案例… …………………… 085
第7 章 明确数据血缘工作的范围… ……………………………… 091
7.1 “企业”的范围 ……………………………………………………… 092
7.2 数据血缘的“长度” ………………………………………………… 092
7.3 数据血缘的“深度” ………………………………………………… 094
7.4 关键数据集 ………………………………………………………… 094
7.5 数据血缘组件的数量 ……………………………………………… 094
第8 章 定义数据血缘相关的角色… ……………………………… 096
8.1 影响角色设计的主要因素 ………………………………………… 096
8.1.1 数据专员类型… ……………………………………………… 098
8.1.2 业务能力维度… ……………………………………………… 100
8.1.3 数据链上的角色位置… ……………………………………… 101
8.1.4 数据管理子能力… …………………………………………… 102
8.1.5 数据架构风格… ……………………………………………… 104
8.1.6 IT 解决方案的设计方法… …………………………………… 106
8.1.7 业务域定义… ………………………………………………… 106
8.1.8 “企业”的规模… ……………………………………………… 107
8.2 记录数据血缘涉及的数据管理角色 ……………………………… 107
第9 章 定义数据血缘需求… ……………………………………… 110
9.1 需求类型 …………………………………………………………… 111
9.2 元数据血缘需求 …………………………………………………… 112
9.2.1 通用需求… …………………………………………………… 112
9.2.2 横向数据血缘需求… ………………………………………… 113
9.2.3 纵向数据血缘需求… ………………………………………… 115
9.3 数据值血缘需求 …………………………………………………… 116
第10 章 确定数据血缘实施方案…………………………………… 118
10.1 影响方案选择的因素 ……………………………………………… 119
10.2 沟通数据血缘的范围和方案 ……………………………………… 126
第11 章 选择合适的数据血缘解决方案…………………………… 129
11.1 软件解决方案相关的术语 ………………………………………… 130
11.2 记录数据血缘的软件解决方案类型 ……………………………… 131
11.3 数据血缘解决方案的主要来源 …………………………………… 133
11.4 记录数据血缘的解决方案 ………………………………………… 138
11.4.1 业务流程建模解决方案… …………………………………… 139
11.4.2 企业架构解决方案… ………………………………………… 140
11.4.3 数据建模解决方案… ………………………………………… 142
11.4.4 元数据、数据治理和数据血缘解决方案… ………………… 143
11.4.5 数据质量和知识图谱解决方案… …………………………… 147
11.4.6 数据血缘解决方案的高阶功能概述… ……………………… 147
第12 章 数据血缘的记录和构建分析……………………………… 152
12.1 描述型和自动型数据血缘记录方法的主要组件 ………………… 153
12.2 数据血缘记录的主要步骤 ………………………………………… 154
12.3 使用描述型方法记录数据血缘 …………………………………… 155
12.4 使用自动型方法记录数据血缘 …………………………………… 161
12.5 描述型和自动型数据血缘组件的集成 …………………………… 165
12.6 数据值血缘管理 …………………………………………………… 165
第13 章 数据血缘业务案例的风险因素和成功因素……………… 169
13.1 风险因素 …………………………………………………………… 169
13.2 成功因素 …………………………………………………………… 170
第三篇 使用数据血缘
第14 章 关键数据…………………………………………………… 177
14.1 关键数据的使用场景 ……………………………………………… 177
14.2 关键数据(元素)的定义 ………………………………………… 178
14.3 “关键数据”概念的应用领域 …………………………………… 180
14.4 “关键数据”概念的实施 ………………………………………… 182
第15 章 数据质量…………………………………………………… 190
15.1 设定数据质量需求 ………………………………………………… 190
15.2 设计和构建数据质量检查和控制机制 …………………………… 191
第16 章 影响分析和根因分析……………………………………… 194
第17 章 业务驱动因素建模………………………………………… 199
第18 章 建立数据管理框架………………………………………… 202
18.1 数据管理的“橙色”模型 ………………………………………… 202
18.2 建立数据管理框架与记录数据血缘 ……………………………… 204
第四篇 案例研究:构建数据血缘业务案例
步骤1:确定业务驱动因素 ……………………………………………… 211
步骤2:主要利益相关者的预算支持和参与 …………………………… 212
步骤3:数据血缘工作的范围 …………………………………………… 212
步骤4:定义角色和职责 ………………………………………………… 218
步骤5:准备数据血缘需求 ……………………………………………… 218
步骤6:选择记录数据血缘的方式和方法 ……………………………… 221
步骤7:选择合适的数据血缘解决方案 ………………………………… 222
附录…………………………………………………………………… 226
模板1 数据血缘需求 …………………………………………………… 227
模板2 数据血缘工作的范围和进展 …………………………………… 229
概述 数据血缘解决方案 ………………………………………………… 231
模板3 比较数据血缘解决方案 ………………………………………… 233