本书详细介绍了数据科学领域的相关智能技术,包括数据分析、基本学习算法、模糊逻辑、人工神经网络、基因算法和进化计算、使用R语言进行大数据分析等。本书可以作为高等院校计算机专业本科生和研究生,以及其他专业研究生的人工智能课程的教材,也可以作为相关教师和数据分析技术人员的参考书。
信息和通信技术(ICT)已成为开展业务的常用工具。凭借ICT提供的高度适用性和支持,许多困难的计算任务都得到了简化。另一方面,信息和通信技术也成为创造挑战的关键因素!如今,如果不使用智能技术,那么在各领域收集的数据规模将远远超过我们缩减数据和分析数据的能力。积累的(大)数据中隐藏着很多有价值的信息。然而,要获得这些有价值的信息和洞察力是非常困难的。因此,帮助人类从数据中提取知识的新一代计算理论和工具是必不可少的。毕竟,为什么这些本质上聪明、智能的工具和技术不用来最小化人的参与,以及有效地管理海量数据呢?
计算智能技术,包括神经网络、模糊系统、进化计算以及其他的机器学习领域,在用于支持业务决策的数据识别、可视化、分类和分析等方面非常有效。已开发的计算智能理论已经应用于工程、数据分析、预测、医疗保健等许多领域。本书将这些技巧结合在一起来解决数据科学中的问题。
最近出现的“数据科学”一词,特指一个使得海量数据变得有意义的新行业。但是,处理数据并使其有意义这一点具有悠久历史。数据科学是一套用于支持和指导从数据中提取信息和洞察力的基本原则。与数据科学最密切相关的概念很可能是数据挖掘——通过包含这些原则,从数据中提取知识的技术。数据科学的核心输出是数据产品。数据产品可以是从推荐列表到仪表板的任何产品,也可以是支持实现更明智决策的任何产品。分析是数据科学的核心。分析侧重根据统计模型来理解数据。它关注数据的收集、分析和解释,以及数据分析结果的有效组织、展示和交流。
这本教材旨在满足希望从事数据科学和计算智能领域的研究和开发人员的需求。
全书概览
自1994年以来,我们在不同地方以不同形式教授了本书中的主题。特别是,本书基于作者过去几年在不同大学和不同研究机构所教授的研究生课程,其内容涉及各种数据科学的相关知识。来自参与者和同事的反馈在很大程度上帮助我们改进了本书的内容。
本书可以作为研究生或高年级本科生的一些课程的教科书或主要参考书,这些课程包括智能控制、计算科学、应用人工智能以及数据库中的知识发现等。
本书以智能的方式为读者设计和实现用于实际应用的数据分析方案奠定了坚实的基础。本书共分为9章。
下面简要介绍每一章中的内容。
数据对于任何企业而言都是重要资产。数据可以为客户行为、市场资讯以及运营绩效等领域提供有价值的洞察力。数据科学家搭建智能系统来管理、解释、理解数据,并从这些数据中获取关键知识。第1章概述了数据科学的这些方面。特别强调的是,帮助学生确定数据科学思维在数据驱动型企业中的重要性。
数据科学项目不同于典型的商业智能项目。第2章概述了数据生命周期、数据科学项目生命周期以及数据分析生命周期。本章还着重解释了标准的数据分析过程。
对于数据科学家而言,最常见的任务是预测和机器学习。机器学习侧重于数据建模,以及与数据科学相关的方法和学习算法。第3章详细介绍了数据科学家和分析师所使用的方法和算法。
模糊集合可以用作通用的近似器,这对建模未知的对象至关重要。如果操作员能够在特定情景下通过语言描述要采取的行动类型,那么使用数据对他的控制行为进行建模就非常有用。第4章介绍了模糊逻辑的基本概念及其在数据科学中的实际应用。
第5章介绍了人工神经网络——一种模拟人脑的计算智能技术。人工神经网络的一个重要特征是其适应性,其中“通过实例学习”取代了解决问题时的传统“编程”。另一个显著特征是允许快速计算的内在并行性。本章为神经网络和深度学习提供了实用的入门知识。
进化计算是一种创新的优化方法。进化计算的一个领域——遗传算法——涉及全局优化算法的使用。遗传算法基于自然选择和遗传学机制。第6章描述了机器学习环境中的进化计算,特别是生物进化和遗传算法。
当问题计算较困难或者仅仅是计算复杂度太高时,元启发式被认为是用于优化的健壮性方法。虽然元启发式通常不会生成最优解决方案,但它们可以在适当的计算时间内提供合理的解决方案,例如通过使用随机机制。元启发式和数据分析有着共同的基础,因为它们通过增量操作,在难解的搜索空间中寻找近似结果。第7章简要介绍了元启发式方法的基本要素,如自适应记忆方法和群体智能。本章还进一步讨论了分类方法,如案例推理。这种分类方法基于这一思想,即以前已解决问题的积累经验可以很好地代表新的情况。基于案例的推理已用于重要的现实世界应用中。
为了利用好大数据,就需要不断地进行分析,并利用数据中的价值。这需要一个基础架构,可以管理和处理大量的结构化和非结构化数据——数据流和存储中的数据——并且可以保护数据隐私和安全。第8章提供了广泛的、涵盖大数据的技术和工具,这些技术和工具支持高级分析、数据隐私以及伦理和安全问题。
第9章给出了R编程语言的简单介绍。R语言既优雅又灵活,并且具有用于数据处理的大量语法。R还包含强大的图形功能。
最后,附录提供了一系列在实践中处理数据科学的流行工具。在整本书中,真实世界的案例研究和练习都是为了强调该材料所涵盖的某些方面,并激发思想。
读者对象
本
译者序
前言
第1章 绪论 1
1.1 引言 1
1.2 数据科学的历史 2
1.3 现代商业中数据科学的重要性 3
1.4 数据科学家 5
1.5 三维数据科学活动 6
1.5.1 管理数据流 7
1.5.2 处理数据管理 8
1.5.3 数据分析 11
1.6 数据科学与其他领域交叉 11
1.7 数据分析思维 13
1.8 应用领域 13
1.8.1 资源的可持续发展 13
1.8.2 利用社交平台进行各种活动 14
1.8.3 智能Web应用 14
1.8.4 Google自动统计员项目 15
1.9 应用计算智能管理数据科学活动 15
1.10 商业中的数据科学场景 17
1.11 有助于数据科学的工具和技术 17
1.11.1 数据清洗工具 18
1.11.2 数据管理和建模工具 19
1.11.3 数据可视化工具 20
1.12 练习 21
参考文献 22
第2章 数据分析 23
2.1 引言 23
2.2 跨行业标准过程 24
2.3 数据分析生命周期 25
2.4 数据科学项目生命周期 27
2.5 数据分析的复杂性 28
2.6 从数据到洞察力 30
2.7 构建分析能力:银行案例 31
2.8 数据质量 32
2.9 数据准备过程 33
2.10 沟通分析结果 34
2.10.1 沟通分析结果的策略 34
2.10.2 数据可视化 35
2.10.3 可视化技术 36
2.11 练习 37
参考文献 37
第3章 基本学习算法 38
3.1 从数据中学习 38
3.2 监督学习 40
3.2.1 线性回归 40
3.2.2 决策树 41
3.2.3 随机森林 46
3.2.4 k-近邻算法 47
3.2.5 逻辑回归 49
3.2.6 模型组合器 50
3.2.7 朴素贝叶斯 53
3.2.8 贝叶斯信念网络 54
3.2.9 支持向量机 56
3.3 无监督学习 57
3.3.1 Apriori 算法 58
3.3.2 k-means算法 60
3.3.3 用于数据压缩的降维 62
3.4 强化学习 62
3.5 案例研究:使用机器学习进行市场营销活动 65
3.6 练习 66
参考文献 67
第4章 模糊逻辑 68
4.1 引言 68
4.2 模糊隶属函数 70
4.2.1 三角形隶属函数 71
4.2.2 梯形隶属函数 71
4.2.3 高斯隶属函数 71
4.2.4 sigmoid隶属函数 72
4.3 隶属值分配方法 72
4.4 模糊化与解模糊化方法 73
4.5 模糊集合操作 73
4.5.1 模糊集合的并集 74
4.5.2 模糊集合的交集 74
4.5.3 模糊集合的补集 74
4.6 模糊集合性质 76
4.7 模糊关系 76
4.8 模糊命题 79
4.8.1 模糊连接词 79
4.8.2 析取 79
4.8.3 合取 80
4.8.4 否定 80
4.8.5 蕴含 80
4.9 模糊推理 80
4.10 基于模糊规则的系统 81
4.11 数据科学的模糊逻辑 82
4.11.1 应用1:Web内容挖掘 83
4.11.2 应用2:Web结构挖掘 84
4.11.3 应用3:Web使用挖掘 85
4.11.4 应用4:环境和社交数据处理 86
4.12 用模糊逻辑进行数据科学活动的工具和技术 87
4.13 练习 88
参考文献 88
第5章 人工神经网络 89
5.1 引言 89
5.2 符号学习方法 90
5.3 人工神经网络及其特点 91
5.4 ANN模型 93
5.4.1 Hopfield模型 93
5.4.2 感知器模型 94
5.4.3 多层感知器 96
5.4.4 多层感知器的深度学习 98
5.4.5 其他ANN模型 100
5.4.6 线性回归与神经网络 101
5.5 ANN工具和程序 102
5.6 社交网络平台上的情感挖掘 103
5.6.1 情感挖掘相关工作 103
5.6.2 广泛架构 104
5.6.3 神经网络设计 104
5.7 应用与挑战 106
5.8 关注点 107
5.9 练习 108
参考文献 109
第6章 遗传算法与进化计算 111
6.1 引言 111
6.2 遗传算法 112
6.3 遗传算法的基本原理 114
6.3.1 个体编码 114
6.3.2 变异 114
6.3.3 交叉 115
6.3.4 适应度函数 116
6.3.5 选择 116
6.3.6 其他编码策略 117
6.4 利用遗传算法进行函数优化的实例 118
6.5 模式与模式定理 120
6.5.1 实例、定义位和模式顺序 120
6.5.2 模式的重要性 121
6.6 基于特殊应用的遗传算子 121
6.7 进化编程 123
6.8 遗传算法在医疗保健中的应用 124
6.8.1 医疗保健案例 124
6.8.2 基于遗传算法的病人调度系统 125
6.8.3 编码候选者 127
6.8.4 种群上的操作 127
6.8.5 其他应用 128
6.9 练习 130
参考文献 131
第7章 其他元启发式和分类方法 132
7.1 引言 132
7.2 自适应记忆过程 132
7.2.1 禁忌搜索 133
7.2.2 分散搜索 134
7.2.3 路径重连 136
7.3 群体智能 136
7.3.1 蚁群优化 137
7.3.2 人工蜂群算法 138
7.3.3 河流形成动力学 139
7.3.4 粒子群优化 139
7.3.5 随机扩散搜索 141
7.3.6 群体智能与大数据 142
7.4 案例推理 142
7.4.1 案例推理中的学习 144
7.4.2 案例推理与数据科学 145
7.4.3 处理复杂的领域 146
7.5 粗糙集 146
7.6 练习 148
参考文献 148
第8章 分析和大数据 149
8.1 引言 149
8.2 传统分析与大数据分析 150
8.3 大规模并行处理 152
8.3.1 MapReduce 152
8.3.2 与RDBMS的比较 154
8.3.3 共享存储的并行编程 155
8.3.4 Apache Hadoop 生态系统 155
8.3.5 Hadoop分布式文件系统 157
8.4 NoSQL