本书分为三大部分共8章, 第一部分为大数据智能处理方法, 包括大数据概况、数据挖掘与经典的机器学习算法以及现代基于生物启发的群智能优化算法; 第二部分先进计算技术, 包括大数据存储技术、大数据处理架构及先进并行计算技术; 第三部分为典型大数据分析案例部分, 主要为风电大数据分析实例和城市供水系统供水量预测大数据分析案例。
第1章 绪论
1.1 大数据的概念和特征
1.1.1 大数据的概念
1.1.2 大数据的特征
1.2 大数据与先进计算、人工智能
1.3 大数据的典型应用场景
1.4 大数据的发展趋势
第2章 机器学习
2.1 数据挖掘与机器学习概述
2.2 logistic回归
2.2.1 logistic回归分类
2.2.2 L2正则化原问题
2.2.3 L2正则化对偶问题
2.2.4 L1正则化原问题
2.3 决策树
2.3.1 树形决策过程
2.3.2 分类与回归树
2.3.3 训练算法
2.4 支持向量机
2.4.1 线性分类器
2.4.2 线性可分的情况
2.4.3 线性不可分的情况
2.4.4 核映射与核函数
2.4.5 SMO算法
2.4.6 多分类问题
2.5 贝叶斯分类器
2.5.1 贝叶斯决策
2.5.2 朴素贝叶斯分类器
2.5.3 正态贝叶斯分类器
2.6 KNN算法
2.6.1 基本概念
2.6.2 预测算法
2.6.3 距离定义
2.7 随机森林
2.7.1 随机抽样
2.7.2 Bagging算法
2.7.3 随机森林算法
2.8 Boosting算法
2.8.1 AdaBoost算法
2.8.2 广义加法模型
2.8.3 实现细节问题
第3章 深度学习
3.1 深度学习概述
3.2 深度学习基础
3.2.1 BP神经网络
3.2.2 受限Boltzmann机
3.3 深度信念网络
3.3.1 模型结构
3.3.2 学习算法
3.4 卷积神经网络
3.4.1 卷积层
3.4.2 ReLU层
3.4.3 池化层
3.4.4 全连接层
3.4.5 层与层之间的交织
3.5 循环神经网络
3.5.1 循环神经网络
3.5.2 双向循环神经网络
3.5.3 多层循环神经网络
3.5.4 回声状态网络
3.5.5 长短期记忆网络
3.5.6 门控循环单元
3.6 生成对抗学习
3.7 强化学习
3.7.1 强化学习的组成部分
3.7.2 马尔可夫决策过程
3.7.3 基于动态规划的算法
3.7.4 蒙特卡洛算法
3.7.5 时序差分算法
3.8 迁移学习
第4章 大数据群智能优化算法
4.1 大数据处理的难点与群智能优化
4.1.1 基于粒子群算法的大数据分析
4.1.2 基于蚁群算法的大数据分析
4.1.3 基于进化算法的大数据分析
4.2 遗传算法
4.2.1 遗传算法原理
4.2.2 常用术语简介
4.2.3 遗传算法的流程
4.3 人工免疫系统
4.3.1 一般免疫算法
4.3.2 克隆选择算法
4.3.3 免疫网络算法
4.3.4 阴性选择算法
4.4 蚁群算法
4.4.1 蚁群算法的基本原理
4.4.2 蚁群算法的流程
4.2.3 改进的蚁群算法
4.5 粒子群优化算法
4.5.1 粒子群优化算法的基本原理
4.5.2 粒子群优化算法的流程
4.6 差分进化算法
4.6.1 差分进化算法原理
4.6.2 差分进化算法流程
第5章 大数据存储
5.1 Hadoop平台
5.1.1 Hadoop的特性
5.1.2 Hadoop生态系统
5.2 分布式文件系统HDFS
5.2.1 分布式文件系统
5.2.2 HDFS的优缺点
5.2.3 HDFS相关概念
5.2.4 HDFS的体系结构
5.2.5 HDFS的数据存储
5.2.6 HDFS的数据读写操作
5.3 分布式数据库HBase
5.3.1 HBase与传统关系数据库的对比分析
5.3.2 HBase数据模型
5.3.3 HBase的实现原理
5.3.4 HBase运行机制
5.4 非关系型数据库NoSQL
5.4 NoSQL数据库的特点
5.4 NoSQL数据库的类型
5.4.3 BASE理论
第6章 大数据处理技术
6.1 MapRecluee
6.1.1 Map和Reduce函数
6.1.2 MapReduce的工作流程
6.1.3 Shuffle过程
6.2 内存计算框架Spark
6.2.1 Spark的特点
6.2.2 SDark生态系统
6.2.3 SDark运行架构
6.2.4 RDD的设计与运行原理
6.2.5 Spark SQL
6.3 流计算
6.3.1 流计算简介
6.3.2 流计算与Hadoop
6.3.3 流计算处理流程
6.3.4 流计算框架Storm
6.4 图计算
6.4.1 图计算简介
6.4.2 图计算的应用场景
6.4.3 Pregel图计算模型
6.4.4 Pregel的体系结构
第7章 风电大数据分析实例
7.1 SCADA数据介绍
7.2 SCADA数据预处理
7.2.1 数据清洗
7.2.2 数据重采样和归一化
7.3 基于SCADA数据深度学习的短期风电功率预测模型构建
7.3.1 模型框架
7.3.2 基于小波包分解算法的SCADA数据去噪
7.3.3 基于最大互信息系数的特征选择
7.3.4 基于门控循环单元深度学习网络的风电功率预测模型
7.3.5 风电功率预测评价指标
7.3.6 算法流程
7.4 实验过程介绍
7.4.1 数据准备
7.4.2 数据预处理
7.4.3 小波包算法去噪与特征选择
7.4.4 对比方法与参数设置
7.4.5 训练过程与收敛分析
7.4.6 结果分析
7.4.7 多步验证
第8章 城