《数据应用工程:方法论与实践》4位资深专家撰写,为企业数据治理和应用提供工程化方法和先进经验,10余位专家力荐
定 价:129 元
丛书名:大数据技术丛书
- 作者:钟大伟 高铎 王鹏 宋超 著
- 出版时间:2022/6/1
- ISBN:9787111704096
- 出 版 社:机械工业出版社
- 中图法分类:TP274
- 页码:424
- 纸张:
- 版次:
- 开本:16
内容简介
这是一本讲解组织数据能力建设与数据应用工程化的著作,它旨在为企业应用和管理数据提供组织建设、技术体系和行业解决方案方面的理论指导和实践经验。本书是几位作者在数据领域十几年工作经验的总结,得到了业界10余位专家的一致好评。无论是像互联网行业的数据原生类企业,还是正在数字化转型的传统企业,本书将为他们大规模、工程化地发挥数据的价值提供有意的参考。
本书的内容大致分为如下四个方面:
(1)行业分析
从宏观角度阐述了数字化变革带来的问题和不确定性,并引出了解决这些问题需要掌握的理论和方法。
(2)理论方法
一方面,详细讲解了企业和组织的技术能力建设发方法、发展规律以及成熟度评估,帮助企业打下应用数据的坚实基础;一方面,详细介绍了数据应用成熟度模型的评估、运用和设计,以及数据工程的过程和方法。
(3)知识体系
详细讲解了数据治理与管理的方法,以及整个大数据体系的技术与架构。
(4)实践案例
通过4个综合案例分别讲解了数据工程与治理、业务数据化以及数据的工程化应用,既有企业级别的数据管理案例,还有业务级别的营销案例,不仅有To B场景,还有To G场景。
赞誉
前言
第一部分 行业分析
第1章 数字化时代的变革与挑战 2
1.1 数字经济与生产变革 2
1.1.1 从农业经济到数字经济,从土地到数据 3
1.1.2 从规模化生产到个性化定制生产,从IT到DT 8
1.2 数字化时代的变革动能 10
1.2.1 技术发展创造变革 11
1.2.2 “新基建”提速变革 14
1.2.3 商业竞争驱动变革 16
1.2.4 社会治理需要变革 20
1.2.5 政府政策引导变革 22
1.3 数字化变革中的不确定性与挑战 25
1.3.1 环境不确定性 25
1.3.2 数字化变革的挑战 30
1.4 本章小结 37
第二部分 理论方法
第2章 技术变革与组织应用技术的规律 40
2.1 组织面对技术变革的三大挑战 40
2.1.1 新技术不断涌现,技术选择的挑战 41
2.1.2 创新风险很高,技术应用发展规划的挑战 45
2.1.3 发展常遇瓶颈,持续提升的挑战 47
2.2 事物发展的“第一性原理” 48
2.2.1 成熟度 48
2.2.2 成熟度模型 49
2.2.3 成熟度模型分类 51
2.3 技术创新规律与成熟度评估 56
2.3.1 技术发展生命周期规律 56
2.3.2 基于就绪水平的技术研发成熟度评估 57
2.3.3 考虑宣传期望的技术发展成熟度曲线 59
2.4 组织技术应用的发展规律与成熟度评估 61
2.4.1 指导早期信息化规划的诺兰成长阶段模型 62
2.4.2 诺兰模型在网络时代与智能时代的扩展 63
2.5 组织技术应用的能力建设规律与成熟度评估 65
2.5.1 从质量方法发展来的能力成熟度模型 65
2.5.2 能力成熟度模型的基础原理 68
2.5.3 软件领域广泛应用的能力成熟度模型 73
2.5.4 数据领域广泛应用的能力成熟度模型 75
2.6 本章小结 81
第3章 数据应用成熟度模型 82
3.1 模型开发背景 82
3.2 数据应用成熟度模型框架 86
3.2.1 模型框架说明 86
3.2.2 模型阶段与维度说明 87
3.3 数据应用成熟度模型评估 88
3.3.1 发展评估—数据应用维度 88
3.3.2 能力评估—数据工程维度 92
3.3.3 能力评估—数据治理维度 94
3.3.4 数据应用成熟度综合评估 96
3.4 数据应用成熟度模型的运用 101
3.4.1 模型运用流程 101
3.4.2 成熟度进阶建议和措施 102
3.5 数据工程过程 104
3.5.1 数据工程过程概述 105
3.5.2 数据理解过程 108
3.5.3 数据设计过程 111
3.5.4 数据处理过程—数据开发 114
3.5.5 数据处理过程—数据分析与数据科学建模 124
3.5.6 数据部署过程 129
3.5.7 数据运营过程 131
3.5.8 数据工程支持过程 133
3.6 数据治理过程?? 134
3.6.1 数据治理维度概述 134
3.6.2 宏观决策域 135
3.6.3 核心治理域—基本治理过程 137
3.6.4 核心治理域—综合治理过程 141
3.7 本章小结 143
第三部分 知识体系
第4章 数据治理与管理 146
4.1 元数据管理 147
4.1.1 元数据概述 147
4.1.2 元数据定义 147
4.1.3 元数据分类 148
4.1.4 元数据管理详解 152
4.2 数据质量管理 154
4.2.1 数据质量概述 154
4.2.2 数据质量问题 156
4.2.3 数据质量测量与评价 159
4.2.4 数据质量问题的解决方法 170
4.2.5 如何做好数据质量管理 173
4.3 数据安全管理 175
4.3.1 数据安全的内容与特点 175
4.3.2 数据安全管理流程 179
4.3.3 数据合规要求的法规体系 181
4.3.4 数据安全的基础合规要求 183
4.3.5 个人信息处理的专门合规要求 186
4.3.6 数据安全管理的技术和方法 196
4.4 本章小结 207
第5章 大数据技术详解 208
5.1 大数据技术的方法和流行开源组件 208
5.1.1 大数据的4V特性与技术挑战 208
5.1.2 大数据技术的主要方法 209
5.1.3 大数据技术的流行开源组件 211
5.2 大数据系统架构 212
5.2.1 MPP数据库架构 212
5.2.2 Hadoop体系的架构 215
5.2.3 两种架构的对比 218
5.2.4 存储与计算分离及云化的未来架构 220
5.3 大数据存储技术 221
5.3.1 分布式文件存储系统 222
5.3.2 分布式数据库系统 225
5.3.3 分布式消息传递系统 232
5.4 大数据计算技术 234
5.4.1 离线批处理 234
5.4.2 实时流处理 236
5.5 大数据分析技术 239
5.5.1 OLAP技术介绍 239
5.5.2 实时OLAP系统的两种架构模型 240
5.5.3 OLAP相关技术分类 241
5.5.4 OLAP技术典型流行产品示例 242
5.6 数据科学技术 244
5.6.1 机器学习的基础概念 244
5.6.2 有监督机器学习算法 250
5.6.3 无监督机器学习算法 260
5.7 本章小结 264
第四部分 实践案例
第6章 数据工程与治理案例——移动大数据的数据处理实践 266
6.1 统一的大数据工程与治理架构 266
6.2 数据仓库设计 268
6.2.1 数据模型架构设计 269
6.2.2 数据管理规范设计 270
6.2.3 数据规格设计 276
6.3 大数据日志收集技术 278
6.3.1 Web日志收集技术 278
6.3.2 移动端日志收集技术 280
6.3.3 埋点技术与埋点实现 283
6.4 数据处理设计 291
6.4.1 数据处理技术架构设计 291
6.4.2 数据处理流程设计 293
6.5 数据科学建模 295
6.5.1 数据科学建模工程流程示例 295
6.5.2 面向数据安全的Embedding数据特征提取方法与应用实例 300
6.5.3 基于移动设备行为数据的人口属性性别标签预测模型迭代实例 304
6.6 数据治理 309
6.6.1 数据治理平台的目标 309
6.6.2 数据治理平台的功能架构 310
6.6.3 元数据管理 314
6.6.4 血缘查询与告警 317
6.6.5 数据资产统计 318
6.6.6 其他功能模块示例 322
6.7 本章小结 325
第7章 数据工程过程案例——企业CDP建设中的数据工程实践 326
7.1 CDP平台的数据源梳理 328
7.1.1 数据源梳理过程的输入和输出 329
7.1.2 了解客户的业务及流程 330
7.1.3 了解客户的系统 330
7.1.4 了解客户的数据 331
7.2 CDP平台的标签体系及其口径梳理 333
7.2.1 标签体系及其口径梳理过程的输入和输出 333
7.2.2 标签体系内容说明 334
7.2.3 标签体系梳理 336
7.2.4 标签口径梳理 339
7.3 CDP平台的数据同步接口定义 341
7.3.1 数据同步接口定义过程的输入和输出 341
7.3.2 关于ETL和ELT 342
7.3.3 数据同步接口定义 342
7.4 CDP平台的数据模型设计 345
7.4.1 关于数据模型设计过程的输入与输出 345
7.4.2 数据模型设计 346
7.4.3 数据模型的应用 351
7.5 CDP平台的ETL设计 352
7.5.1 ETL设计过程的输入和输出 353
7.5.2 ETL设计 353
7.6 CDP平台的ETL开发 357
7.6.1 ETL开发过程的输入和输出 357
7.6.2 ETL开发流程 358
7.7 CDP平台的数据运维 359
7.7.1 运维过程的输入与输出 359
7.7.2 运维工作内容 360
7.8 本章小结 362
第8章 数据应用案例——大数据统计分析与个性化营销 363
8.1 统计级大数据应用——移动应用统计分析系统 363
8.1.1 业务背景 364
8.1.2 产品技术设计 367
8.1.3 具体实现示例与说明 379
8.2 个体级大数据应用——营销数据管理平台 382
8.2.1 产品背景 382
8.2.2 产品设计 382
8.2.3 具体实现示例 391
8.3 本章小结 392
第9章 数据应用案例——基于空间大数据的土地资源数字化精准监管 393
9.1 案例背景 393
9.2 数据处理过程 394
9.3 数字化的土地执法监管应用 398
9.4 本章小结 401
附录
附录A 成熟度模型的构建方法 404
附录B 数据应用成熟度模型设计说明 408
附录C 数据合规要求的法规文件汇总 411