本书内容分为数据挖掘理论和数据挖掘实践两部分。数据挖掘理论部分主要包括数据挖掘的基本概念、数据预处理、聚类分析、分类与回归、关联规则挖掘及离群点检测。数据挖掘实践部分讨论数据挖掘在文本挖掘和金融领域中的应用,通过虚假新闻检测和社交平台情绪分析等案例,展示数据挖掘在文本挖掘方面的应用;通过潜在贷款客户挖掘、贷款违约等案例展示数据挖掘在金融领域的应用。 本书可作为高等学校计算机、数据科学与大数据、电子商务、信息科学等相关专业的教材或参考书,也可供从事数据挖掘研究的科研、技术人员参考。
蒋盛益,教授、博士,硕士生导师;广东省"千百十"工程省级培养对象,广东外语外贸大学教学名师。中国计算机学会高级会员,中国计算机学会中文信息技术专委会委员,中国中文信息学会计算语言学专业委员会委员、社会媒体处理专委会委员,人工智能学会机器学习专委会委员,广东省计算机学会常务理事;广州市计算机学会常务理事;第十、十一届广东省政协委员。先后在湖南师范大学、中南工业大学、华中科技大学毕业,分别获理学学士学位、理学硕士学位、工学博士学位。目前重点研究方向是利用自然语言处理、社会网络分析技术来处理网络新闻和社交媒体中的数据,包括新闻观点自动提取、对特定事件的立场(支持还是反对)分析、舆情传播模式研究、用户影响力分析等。应用背景包括国内外舆情分析、海上丝绸之路的情报分析。
目 录
上篇 理论篇
第1章 绪论 2
1.1 数据挖掘技术使用背景 4
1.2 数据挖掘任务及过程 5
1.2.1 数据挖掘定义 5
1.2.2 数据挖掘任务 5
1.2.3 数据挖掘过程 7
1.2.4 数据挖掘对象 8
1.2.5 数据挖掘工具及其选择 13
1.3 数据挖掘应用 13
1.3.1 数据挖掘在计算机领域中的应用 14
1.3.2 数据挖掘在商业领域中的应用 15
1.3.3 数据挖掘在其他领域中的应用 16
1.3.4 数据挖掘技术的前景 17
1.4 数据挖掘与隐私保护 18
本章小结 20
习题1 20
第2章 数据处理基础 23
2.1 数据 24
2.1.1 数据及数据类型 24
2.1.2 数据集的类型 25
2.2 数据探索 27
2.2.1 描述性统计分析 27
2.2.2 数据可视化 30
2.2.3 辛普森悖论 34
2.3 数据预处理 37
2.3.1 数据清理 38
2.3.2 数据集成 41
2.3.3 特征变换 41
2.3.4 数据归约 48
2.4 相似性度量 55
2.4.1 属性之间的相似性度量 56
2.4.2 对象之间的相似性度量 57
本章小结 60
习题2 61
第3章 分类和回归 65
3.1 分类概述 66
3.2 决策树分类方法 67
3.2.1 决策树的基本概念 67
3.2.2 构建决策树的要素 68
3.2.3 Hunt算法 73
3.2.4 C4.5算法 74
3.2.5 CART算法 79
3.2.6 决策树算法的特点 90
3.3 贝叶斯分类方法 90
3.3.1 贝叶斯定理 91
3.3.2 朴素贝叶斯分类算法 92
3.3.3 贝叶斯信念网络 96
3.4 k-最近邻分类方法 97
3.4.1 k-最近邻分类的基本问题 98
3.4.2 k-最近邻分类算法描述 98
3.4.3 k-最近邻分类算法的优缺点 100
3.5 神经网络分类方法 100
3.5.1 人工神经网络的基本概念 100
3.5.2 典型神经网络模型介绍 102
3.5.3 神经网络的特点 103
3.5.4 深度网络和深度学习算法 104
3.6 支持向量机 105
3.7 集成分类方法 107
3.8 分类问题拓展 113
3.8.1 不平衡分类问题 113
3.8.2 半监督学习 115
3.8.3 单类分类 115
3.8.4 多标签分类 115
3.8.5 层次分类 115
3.9 分类模型的评价 116
3.9.1 分类模型性能评价指标 116
3.9.2 分类模型的过度拟合 117
3.9.3 评估分类模型性能的方法 117
3.10 综合案例:信用风险分析 118
3.11 回归分析 121
3.11.1 多元线性回归模型 122
3.11.2 非线性回归 125
3.11.3 逻辑回归 127
本章小结 131
习题3 131
第4章 聚类分析 137
4.1 聚类分析概述 138
4.2 k-means算法及其改进 141
4.2.1 基本k-means算法 141
4.2.2 k-means聚类算法的拓展 145
4.3 层次聚类算法 150
4.3.1 二分k-means算法 151
4.3.2 BIRCH算法 152
4.3.3 CURE算法 154
4.3.4 ROCK算法 155
4.4 基于密度的聚类算法 157
4.5 基于图的聚类算法 160
4.5.1 Chameleon聚类算法 160
4.5.2 基于SNN的聚类算法 165
4.6 一趟聚类算法 167
4.6.1 阈值选择 167
4.6.2 算法应用 171
4.7 基于模型的聚类算法 172
4.7.1 期望最大化方法 172
4.7.2 概念聚类 172
4.7.3 SOM方法 174
4.8 聚类算法评价 176
4.9 综合案例:航空公司客户价值分析 178
本章小结 184
习题4 184
第5章 关联分析 187
5.1 关联分析概述 188
5.2 关联规则分析基础 188
5.2.1 基本概念 188
5.2.2 基础分析方法 190
5.3 Apriori算法 192
5.3.1 Apriori性质 192
5.3.2 产生频繁项集 193
5.3.3 频繁项集构造示例 194
5.3.4 产生关联规则 195
5.3.5 规则的评估标准 198
5.3.6 Apriori算法评价 201
5.4 FP-Growth算法 201
5.4.1 FP-tree表示法 201
5.4.2 构建FP-tree 202
5.4.3 发现频繁项集 204
5.5 关联规则扩展 205
5.5.1 关联规则分类 205
5.5.2 多层次关联规则 206
5.5.3 多维度关联规则 207
5.5.4 定量关联规则 208
5.5.5 基于约束的关联规则 208
5.5.6 序列模式挖掘 208
5.6 综合案例:移动业务关联分析 209
5.6.1 数据准备 209
5.6.2 数据预处理 209
5.6.3 关联规则挖掘过程 211
5.6.4 规则的优化 214
5.6.5 模型的应用 215
本章小结 216
习题5 216
第6章 离群点挖掘 220
6.1 离群点挖掘概述 221
6.2 基于统计的方法 222
6.3 基于距离的方法 224
6.4 基于相对密度的方法 226
6.5 基于聚类的方法 231
6.5.1 基于对象的离群因子方法 231
6.5.2 基于簇的离群因子方法 234
6.5.3 基于聚类的动态数据离群点检测方法 236
6.6 离群点挖掘方法的评估 237
6.7 综合案例 237
6.7.1 离群点检测在癌症诊断中的应用 237
6.7.2 离群点检测在网络入侵检测中的应用 239
本章小结 242
习题6 242
下篇 实践篇
第7章 文本挖掘 246
7.1 文本挖掘概述 247
7.1.1 分词 247
7.1.2 文本表示与词权重计算 250
7.1.3 文本特征选择 252
7.1.4 文本分类 253
7.1.5 文本聚类 256
7.1.6 文档自动摘要 258
7.1.7 文本情感分析 262
7.1.8 用户画像 265
7.2 案例分析 269
7.2.1 虚假新闻检测案例 269
7.2.2 社交平台情感分类 277
本章小结 283
第8章 数据挖掘的金融应用 285
8.1 数据挖掘在金融领域中的应用概述 287
8.1.1 金融科技 287
8.1.2 金融领域中的数据挖掘应用 289
8.2 银行潜在贷款客户挖掘 295
8.2.1 业务理解 295
8.2.2 数据理解与数据准备 296
8.2.3 模型构建与评估 299
8.3 贷款违约 301
本章小结 305
附录A 数据挖掘常用资源列表 307
参考文献 308