本书作为 CDA LEVEL Ⅱ考试教材,打破传统的知识整合模式,从 EDIT(探索、诊断、指导和工具)数字化工作模型的角度进行讲解,在介绍知识概念的同时,还讲解了在进行商业策略数据分析时应遵循的整体思维和思考方式,以达到业务宏观分析与用户微观洞察相结合、使用科学的方式进行数据分析的教学目标。本书分为 5 部分,分别讲解 EDIT 模型、数据处理与可视化、根因分析、业务优化,以及数据治理与数据模型管理。其中第一部分就是第 1 章的内容,第二部分包含第 2 章和第 3 章,第三部分包含第 4~8 章,第四部分包含第 9~11 章,第五部分包含第 12~14 章,每章分别针对当前部分的问题进行分析与处理。
CDA数据科学研究院简介2013年,大数据行业方兴未艾,CDA数据科学研究院孕育而生,是国内率先成立的专注于数据科学领域的专业研究团队。CDA数据科学研究院汇集数据行业专家,团队具有专业的学术素养、精湛的研究水平、扎实的企业实战经验,丰富的行业资源,通过对各类企业、社会组织等进行全面、系统、深入的调查和访问,从而获得紧跟技术发展的经验与数据,并结合数据行业的未来发展方向进行系统的研究,不断研发新的知识体系和技术应用。
目录
第1 章 EDIT 模型概述. 1
1.1 探索阶段 4
1.2 诊断阶段 5
1.3 指导阶段 8
1.4 工具支持 9
1.5 本章练习题 10
第2 章 数据处理 12
2.1 使用pandas 读取结构化数据 .13
2.1.1 读取数据 .14
2.1.2 写出数据 .17
2.2 数据整合 17
2.2.1 行、列操作 .17
2.2.2 条件查询 .21
2.2.3 横向连接 .24
2.2.4 纵向合并 .27
2.2.5 排序 .30
2.2.6 分组汇总 .31
2.2.7 拆分列 .35
2.2.8 赋值与条件赋值 .36
2.3 数据清洗 39
2.3.1 重复值处理 .39
2.3.2 缺失值处理 .40
2.4 本章练习题 43
第3 章 指标体系与数据可视化. 45
3.1 Python 可视化 45
3.1.1 Matplotlib 绘图库 .45
3.1.2 Seaborn 绘图库.54
3.2 描述性统计分析与绘图 60
3.2.1 描述性统计进行数据探索 .60
3.2.2 制作报表与统计制图 .69
3.2.3 制图的步骤 .76
3.3 指标体系 81
3.3.1 建立指标标准 .82
3.3.2 什么是指标体系 .83
3.3.3 构建指标体系的意义 .85
3.3.4 构建指标库 .86
3.3.5 搭建管理分析视图和指标应用模式 .89
3.4 本章练习题 90
第4 章 数据采集与数据预处理. 92
4.1 数据采集方法 92
4.1.1 市场研究中的数据 .92
4.1.2 概率抽样方法 .93
4.1.3 非概率抽样方法 .99
4.1.4 概率抽样和非概率抽样的比较 .101
4.2 市场调研和数据录入 101
4.2.1 市场调研流程 .101
4.2.2 市场调研目标设定 .102
4.2.3 市场调研前的准备工作 .102
4.2.4 实施调研 .109
4.3 数据预处理基础 110
4.3.1 数据预处理基本步骤 .110
4.3.2 错误数据识别与处理 .111
4.3.3 连续型变量离群值识别与处理 .116
4.3.4 分类型变量概化处理 .117
4.3.5 缺失值处理 .118
4.3.6 连续型变量分布形态转换 .122
4.3.7 连续型变量中心标准化或归一化 .122
4.3.8 变量降维 .123
4.3.9 WoE 转换 124
4.4 本章练习题 125
第5 章 宏观业务分析方法 129
5.1 矩阵分析法 129
5.2 连续型变量降维 134
5.2.1 方法概述 .135
5.2.2 变量筛选 .136
5.2.3 维度归约 .136
5.3 主成分分析法 137
5.3.1 主成分分析简介 .137
5.3.2 主成分分析原理 .138
5.3.3 主成分分析的运用 .141
5.3.4 实战案例:在Python 中实现主成分分析 .142
5.3.5 基于主成分的冗余变量筛选 .145
5.4 因子分析 146
5.4.1 因子分析模型 .146
5.4.2 因子分析算法 .148
5.4.3 实战案例:在Python 中实现因子分析 .151
5.5 多维尺度分析 155
5.6 本章练习题 159
第6 章 用户标签体系与用户画像 165
6.1 标签体系的整体框架 167
6.2 标签的分类 168
6.2.1 从研究客体的数据类型角度分类 .168
6.2.2 从标签的时态角度分类 .170
6.2.3 从标签的加工角度分类 .171
6.2.4 业务指标与用户标签的关系 .175
6.3 用户画像 181
6.3.1 细分市场与STP 模型 182
6.3.2 快速入手用户画像 .182
6.3.3 用户分群的发展历程 .185
6.3.4 用户的决策进程 .186
6.3.5 马斯洛需求理论 .187
6.3.6 用户消费的成本与收益 .187
6.3.7 用户细分的方法 .188
6.3.8 基于用户分群的精准营销 .190
6.3.9 标签与数据科学的过程 .191
6.4 实战案例:用Python 实现用户画像 .192
6.4.1 使用Python 进行用户画像的基础知识 .192
6.4.2 用户画像在诊断阶段中的应用 .192
6.4.3 样本数据集介绍 .193
6.4.4 使用SQL 语句进行数据处理 .195
6.4.5 使用Python 进行用户画像 .198
6.5 本章练习题 202
第7 章 使用统计学方法进行变量有效性测试 205
7.1 假设检验 205
7.1.1 假设检验的基本概念 .206
7.1.2 假设检验中的两类错误 .207
7.1.3 假设检验与区间估计的联系 .209
7.1.4 假设检验的基本步骤 .209
7.1.5 配对样本t 检验211
7.2 方差分析 211
7.2.1 单因素方差分析 .212
7.2.2 多因素方差分析 .217
7.3 列联表分析与卡方检验 220
7.3.1 列联表 .220
7.3.2 卡方检验 .222
7.4 线性回归 224
7.4.1 简单线性回归 .225
7.4.2 多元线性回归 .227
7.4.3 多元线性回归的变量筛选 .236
7.4.4 线性回归模型的经典假设 .239
7.4.5 建立线性回归模型的基本步骤 .248
7.5 Logistic 回归 249
7.5.1 逻辑回归的相关关系分析 .252
7.5.2 逻辑回归模型及实现 .253
7.5.3 逻辑回归的极大似然估计 .264
7.5.4 模型评估 .266
7.5.5 因果推断模型 .274
7.6 本章练习题 278
第8 章 使用时间序列分析方法做预报. 294
8.1 认识时间序列 294
8.2 效应分解法 295
8.2.1 时间序列的效应分解 .296
8.2.2 时间序列3 种效应的组合方式 .296
8.3 平稳时间序列分析ARMA 模型 297
8.3.1 平稳时间序列 .297
8.3.2 ARMA 模型 298
8.3.3 在Python 中进行AR 建模 304
8.4 非平稳时间序列分析ARIMA 模型 .310
8.4.1 差分与ARIMA 模型 .310
8.4.2 在Python 中进行ARIMA 建模 313
8.5 ARIMA 建模方法总结 322
8.6 本章练习题 323
第9 章 用户分群方法 327
9.1 用户细分与聚类 327
9.1.1 用户细分的重要意义 .327
9.1.2 用户细分的不同商业主题 .328
9.2 聚类分析的基本概念 335
9.3 聚类模型的评估 336
9.3.1 轮廓系数 .336
9.3.2 平方根标准误差 .337
9.3.3 R2 .337
9.3.4 ARI 338
9.4 层次聚类 338
9.4.1 层次聚类的算法描述 .338
9.4.2 层次聚类分群数量的确定 .342
9.4.3 层次聚类应用案例 .343
9.4.4 层次聚类的特点 .347
9.5 K-means 聚类算法 .347
9.5.1 K-means 聚类算法描述 .347
9.5.2 K-means 聚类算法的应用:用户细分 .348
9.6 聚类事后分析:决策树应用 356
9.6.1 决策树的基本概念 .356
9.6.2 决策树解读用户分群后的特征 .357
9.7 本章练习题 359
第10 章 业务流程分析与流程优化 364
10.1 价值流程图 364
10.2 对比测试 366
10.2.1 转换漏斗 .366
10.2.2 对比测试 .367
10.3 本章练习题 371
第11 章 运筹优化模型 373
11.1 线性规划 373
11.2 整数规划 380
11.3 二次规划 386
11.4 本章练习题 .390
第12 章 数据治理 393
12.1 数据治理的驱动因素 393
12.2 数据治理体系 394
12.2.1 数据治理域 .395
12.2.2 数据管理域 .397
12.2.3 数据应用域 .401
12.3 如何开展数据治理 404
12.3.1 准确的定位数据治理 .404
12.3.2 明确数据应用方向 .405
12.3.3 多层级全方位进行治理 .406
12.4 本章练习题 406
第13 章 数据模型管理 408
13.1 数据分类 408
13.2 数据建模 411
13.2.1 数据架构的基本概念 .411
13.2.2 数据模型介绍 .413
13.2.3 数据建模基础 .413
13.2.4 主题域分类 .414
13.2.5 概念模型 .414
13.2.6 逻辑模型 .415
13.2.7 物理模型 .416
13.3 数据建模案例 416
13.4 数据仓库体系和ETL 419
13.5 本章练习题 423
第14 章 智能对话分析与预测 426
14.1 导入数据 430
14.2 数据探索 430
14.2.1 缺失值 .430
14.2.2 重复值 .431
14.2.3 异常值 .431
14.2.4 相关分析 .432
14.3 可视化展示 434
14.3.1 多变量图 .434
14.3.2 回归拟合图 .434
14.3.3 联合分布图 .436
14.4 逻辑回归模型 436
14.4.1 划分数据集 .436
14.4.2 初步建模 .437
14.4.3 模型优化 .438
14.4.4 模型预测与评估 .439