《Spark大数据分析技术(Scala版)》系统介绍了Spark大数据技术的相关知识,内容包括Spark概述、Scala基础编程、基于Scala的Spark编程、Windows环境下的Spark综合编程、SparkSQL结构化数据处理、SparkStreaming流计算、SparkGraphX图计算、SparkMLlib机器学习。
《Spark大数据分析技术(Scala版)》还给出了Spark大数据相关技术的许多编程示例与详细注解。
《Spark大数据分析技术(Scala版)》可作为高等院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材,也可供相关技术人员参考。
数据已成为国家基础性战略资源,大数据正逐渐对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理产生重要影响。2013年6月,Spark进入Apache成为孵化项目,8个月后成为Apache顶级项目。Spark因其先进的设计理念而迅速成为社区的热门项目,随着Spark的SparkSQL、SparkStreaming、MLlib和GraphX等组件被相继推出,这些组件逐渐形成大数据处理一站式解决平台。
Spark功能强大,涉及的知识面宽广。本书用通俗易懂的语言阐述相关原理和操作,并给出了丰富的操作案例,同时将知识点讲解与实际操作相结合,使读者学以致用。
全书共8章,各章内容如下。
第1章为Spark概述。本章主要介绍Spark运行机制、Spark安装及配置、SparkScala编程和SparkPython编程。
第2章为Scala基础编程。本章对Scala进行概要介绍,主要包括Scala特性,Scala安装,Scala基本数据类型,Scala常量和变量,Scala数组、列表、集合和映射,Scala控制结构,Scala函数,Scala类和Scala读写文件。
第3章为基于Scala的Spark编程。RDD是Spark的核心概念,本质上是一个只读的分区记录集合,每个分区是一个数据集片段。Spark基于Scala语言提供了对RDD的转换操作和行动操作,通过这些操作可实现复杂的应用。本章主要介绍RDD的创建方法、RDD各种操作、RDD属性、RDD持久化的方法以及如何使用Scala语言编写Spark应用程序。
第4章为Windows环境下的Spark综合编程。本章主要介绍如何在Windows系统上搭建Spark、Hadoop和Maven开发环境,并给出一个Spark综合编程实例。
第5章为SparksoL结构化数据处理。SparksoL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象,叫作DataFrame。本章主要介绍SparksoL与Shell交互、DataFrame对象的创建、DataFrame对象上的常用操作。
第6章为SparkStreaming流计算。本章首先介绍流计算的相关概念、SparkStreaming运行原理、SparkStreaming程序编写步骤、StreamingContext对象的创建,然后介绍DStream的常用操作。
第1章 Spark概述
1.1 认识Spark
1.1.1 Spark的产生背景
1.1.2 Spark的优点
1.1.3 Spark应用场景
1.1.4 Spark生态系统
1.2 Spark运行机制
1.2.1 Spark基本概念
1.2.2 Spark运行架构
1.2.3 Spark应用执行的基本流程
1.3 Spark的安装及配置
1.3.1 Spark安装的基础环境
1.3.2 下载安装文件
1.3.3 单机模式配置
1.3.4 伪分布式模式配置
1.4 SparkScala编程
1.4.1 启动SparkShell
1.4.2 退出SparkSheU
1.5 SparkPython编程
习题
第2章 Scala基础编程
2.1 Scala特性
2.2 Windows环境下的Scala安装
2.2.1 jdk安装与环境变量配置
2.2.2 Scala安装
2.3 声明常量和变量
2.3.1 声明常量
2.3.2 声明变量
2.4 字符串
2.4.1 基本数据类型
2.4.2 运算符
2.4.3 字符串对象的常用方法
2.5 Scala控制结构
2.5.1 条件表达式
2.5.2 ifelse选择结构
2.5.3 编写Scala脚本
2.5.4 循环
2.6 Scala数组
2.6.1 数组的分类
2.6.2 遍历数组
2.6.3 数组转换
2.6.4 数组对象的常用方法
2.7 列表
2.7.1 不可变列表(List)创建
2.7.2 不可变列表(List)操作
2.7.3 可变列表ListBuffer
2.8 集合
2.8.1 不可变集合
2.8.2 可变集合
2.9 映射
2.9.1 不可变映射
2.9.2 可变映射
2.10 元组
2.10.1 元组常用操作
2.10.2 拉链操作
2.11 Scala函数
2.11.1 函数定义
2.11.2 匿名函数
2.11.3 高阶函数
2.12 Scala模式匹配
2.13 Scala类
2.13.1 class类
2.13.2 Object对象
2.14 Scala读写文件
2.14.1 读取文件
2.14.2 写入文件
习题
……
第3章 基于Scala的Spark编程
第4章 Windows环境下的Spark综合编程
第5章 SparkSQL结构化数据处理
第6章 SparkStreaming流计算
第7章 SparkGraphX图计算
第8章 SparkMLlib机器学习
参考文献