本书介绍了人工智能和大数据涉及的核心概念和模型。书中涉及概念包括监督和非监督学习、数据类型、可视化、线性回归、逻辑回归、分类回归树、神经网络等。同时,本书理论和实际并重,基于真实的实例和数据集,引入了R语言演示实际计算和操作,为读者展示解决实际问题的代码,从而让读者掌握在实际生活中解决相关问题的方法。
本书适合想要综合学习人工智能、大数据和数据科学,尤其是想要依靠这些学科解决实际问题的人学习,也适合作为相关课程的参考教材。
1. 针对初学人士,对核心概念进行了详细的解释。
2. 理论和实操并重,采用了真实的案例和数据集进行演示。
3. 向读者展示如何使用开源编程语言(即R语言)将概念投入应用。
4. 章末提供有关概念和实际计算的习题,帮助读者进一步理解。
注意:本书作者为新加坡南洋理工大学高级讲师Chew Chee Hua(中文名:周志华)先生,与《机器学习》作者、南京大学周志华教授不是同一人。请各位读者不要混淆。
Chew Chee Hua(中文名:周志华),新加披南洋理工大学高级讲师,主讲课程包括分析学、机器学习、商业分析及应用机器学习、分析战略等。曾为政府机构、银行、保险公司、医院和大型企业设计和领导高级分析解决方案。
第 1 章 介绍和概述 . 1
1.1 主要的成功案例和应用 .1
1.1.1 Netflix 的 120 亿美元营收目标 .1
1.1.2 在医院急诊部使用有限的信息拯救生命 .3
1.1.3 癌症诊断与损伤预后 .5
1.1.4 从零开始使用低预算连续赢得 20 场比赛 .6
1.1.5 壳牌公司深海石油钻探的预测性资产维护 .7
1.1.6 预测选举结果 .8
1.1.7 星展银行预测现金需求和优化调度 .9
1.1.8 新加坡税务局检测税务欺诈 .10
1.1.9 违规和欺诈贷款风险检测 .11
1.2 适合 ADA 解决的问题特征 .12
1.3 数据分析、数据科学和人工智能的区别 .13
1.4 analysis 和 analytics .14
1.5 组织 ADA 能力的发展曲线 .15
1.6 规划、开发和部署 ADA .18
1.7 四大预测模型 .19
第 2 章 基本概念和原则. 21
2.1 本章目标 .21
2.2 可视化和模型 .21
2.3 监督学习和无监督学习 .24
2.4 模型的可解释性 .25
2.5 原则 1:正确模型不唯一 .26
2.5.1 模型和等式 .28
2.5.2 评估预测模型 .29
2.6 原则 2:训练数据和测试数据分离 . 31
2.6.1 在训练 - 测试拆分前进行分层 .33
2.6.2 有效地执行分层和训练 - 测试拆分 .34
2.6.3 训练集与测试集之间的权衡 .39
2.7 原则 3:风险校正模型 . 39
2.7.1 多项式插值定理的影响 .40
2.7.2 模型复杂度 .41
第 3 章 数据探索和摘要. 47
3.1 本章目标 .47
3.2 数据初探和 R 语言的 data.table .47
3.2.1 data.table 的语法 .48
3.2.2 示例:2014 年的纽约航班 .48
3.2.3 行筛选 .51
3.2.4 列排序 .52
3.2.5 筛选几列并进行重命名 .53
3.2.6 进一步的数据探索和问题 .53
3.3 公共用途微观样本数据 .59
3.3.1 探索 PUMS 中的健康保险覆盖面数据 .60
3.3.2 在 R 中导入数据和摘要概述 .61
3.3.3 缺失值概述 .66
3.3.4 绘制单一连续变量的图形摘要—概率密度 .67
3.3.5 绘制单一分类变量的图形摘要—条形图 .71
3.3.6 绘制分类变量X 和连续变量Y 的图形摘要—箱线图 .73
3.3.7 绘制连续变量X 和连续变量Y 的图形摘要—散点图 .75
3.3.8 绘制连续变量X 和分类变量X 的图形摘要—抖动
散点图 .76
3.4 结论 .79
第 4 章 数据结构和可视化 . 83
4.1 本章目标 .83
4.2 数据结构的格式 .83
4.3 检查数据结构 .85
4.3.1 连续数据和分类数据 .85
4.3.2 定类数据与定序数据 .87
4.4 可视化 .90
4.5 结论 .93
第 5 章 数据清洗和准备. 95
5.1 本章目标 .95
5.2 缺失值 .95
5.2.1 更正不一致的缺失值记录 .96
5.2.2 NA 和 NULL .98
5.2.3 处理(真实存在的)缺失值 .99
5.3 处理分类数据中的 NA 和错误值 .100
5.4 处理连续数据中的 NA 和错误值 .100
5.5 结论 .102
第 6 章 线性回归:最佳实践. 105
6.1 本章目标 .105
6.2 相关性 .105
6.2.1 强相关和因果关系 .108
6.2.2 强相关和直线关系 .109
6.2.3 弱相关性和无趋势 .110
6.3 单输入变量的线性回归 .112
6.4 多重R 方和调整R 方 .115
6.5 线性回归方程和线性回归模型 .117
6.6 模型诊断图 .118
6.7 有影响力的异常值 .119
6.8 向模型中增加一个二次项 .121
6.9 多因子的线性回归 .123
6.10 训练 - 测试拆分 .135
6.11 结论 .137
第 7 章 逻辑回归:最佳实践. 140
7.1 本章目标 .140
7.2 相对风险和胜算比 .140
7.3 单一连续输入变量的二元逻辑回归 .145
7.3.1 示例: 基于学习时长预测考试结果 .148
7.3.2 逻辑回归的混淆矩阵 .152
7.4 多输入变量的二元逻辑回归 .154
7.5 多元逻辑回归 .159
7.5.1 多分类值Y 的逻辑函数 .160
7.5.2 示例:影响服务评级的因素 .161
7.6 结论 .166
第 8 章 分类回归树 . 171
8.1 本章目标 .171
8.2 预测心脏病发作的模型和要求 .172
8.3 阶段 1:使用二分法将树增长到最大值 .175
8.3.1 度量分类变量结点的杂质 .176
8.3.2 CART 树的增长过程 .179
8.4 阶段 2:用最弱连接剪枝法将树修剪到最小值 .180
8.4.1 最弱连接剪枝 .182
8.4.2 rpart 包中的α 和cp .185
8.4.3 k 折交叉验证和 1 标准误差规则 .185
8.5 示例:CART 模型在定向信用卡营销中的运用
(Y 为分类数据) .187
8.6 示例:CART 模型在汽车燃油效率中的运用
(Y 为连续数据) .198
8.7 通过代理项自动处理缺失值 .205
8.8 结论 .211
8.9 rpart 包的重要函数和参数总结 .212
第 9 章 神经网络. 219
9.1 本章目标 .219
9.2 大脑处理信息过程的建模 .220
9.3 信息的处理、关联和传输 .221
9.4 示例:巧克力口味测试 .222
9.5 通过增加权重训练神经网络 .226
9.5.1 反向传播 .226
9.5.2 弹性反向传播和权重回溯 .228
9.6 设计神经网络需要考虑的细节 .229
9.6.1 规范所有输入变量的取值范围 .229
9.6.2 限制网络复杂度 .230
9.6.3 neuralnet 和 nnet .230
9.7 示例:不孕风险 .231
9.8 结论 .236、
第 10 章 字符串和文本挖掘 . 240
10.1 本章目标 .240
10.2 处理字符串 .240
10.3 基本的文本挖掘概念 .247
10.3.1 示例:对期刊标题进行分析的字符串操作 .249
10.3.2 示例:对期刊标题分析的文本挖掘操作 .252
10.3.3 文档要素矩阵 .256
10.3.4 非索引字 .257
10.4 情绪分析 .259
10.5 结论 .266
第 11 章 结束感想和后续计划. 269
附录 A R 和 RStudio 的安装 . 271
A.1 下载安装 R .271
A.2 下载安装 RStudio .273
A.3 在 RStudio 中将 R 升级到最新版本 .274
附录 B 基本的 R 命令和脚本 . 275
B.1 RStudio 界面的 4 个面板 .275
B.2 检查和设置工作目录 .280
B.3 将数据输入 RStudio .281
B.4 R 中的对象命名约定 .284
B.5 R 中的通用运算符 .285
B.6 R 函数 .285
B.7 创建你自己的 R 函数 .287
B.8 练习 R .288