全书共分8章, 第1章概述了大数据; 第2章介绍了大数据平台部署的详细过程; 第3章介绍了Hadoop应用开发、使用Java操作HDFS和认识MapReduce; 第4章介绍了Hive数据仓库开发、Hive开发环境的搭建和Hive高级操作; 第5章介绍了Flume开发应用、安装Flume、Flume自定义实现; 第6章介绍了Kafka开发应用、Kafka的安装与配置、Kafka监控和编程实现; 第7章介绍了PySparkJ开F发应用、PySpark配置和PySpark案例; 第8章介绍了Flink开发应用、Flink部署和Flink案例。
本书包含课件PPT 习题及答案 视频 思政元素。采用目前行业主流大数据处理技术。校企深度合作,共同开发。理论与实战相结合,实操性强。
公开发表论文13篇,其中核心期刊6篇;主持主研重庆市级教改项目及科研项目15项;国家软件著作权2项;国家职业技能标准《农业经理人5-05-01-02》核心专家;国家农业行业标准《农业职业经理人》NY/T2805-2015核心专家。中国农业大学出版社《计算机应用基础》,2008,主编西南大学出版社《农村实用信息技术》,2015,主编电子科技大学出版社《高级办公软件应用教程》,2019,副主编电子科技大学出版社《python程序设计基础教程》,2020,主编四川大学出版社《3DS MAX2018虚拟现实(VR)模型制作项目案例》,主编中国传媒大学出版社《大学信息技术基础》,副主编合肥工业大学出版社《农村信息化技术》,主编中国农业出版社《农业经理人(理论)》,参编
第1章 大数据概述
1.1 大数据简介 /1
1.2 大数据应用开发流程 /5
1.3 Hadoop生态体系 /14
1.4 本章小结 /17
1.5 课后习题 /17
第2章 Hadoop平台部署
2.1 安装准备 /18
2.2 Hadoop核心组件 /39
2.3 Hadoop的搭建 /43
2.4 MapReduce开发环境的搭建 /60
2.5 本章小结 /67
2.6 课后习题 /67
第3章 Hadoop应用开发
3.1 使用HDFS的shell指令 /68
3.2 使用Java操作HDFS /71
3.3 认识MapReduce /78
3.4 本章小结 /84
3.5 课后习题 /84
第4章 Hive数据仓库开发
4.1 Hive概述 /86
4.2 Hive开发环境的搭建 /91
4.3 Hive基本操作 /98
4.4 Hive高级操作 /113
4.5 本章小结 /119
4.6 课后习题 /120
第5章 Flume开发应用
5.1 Flume概述 /123
5.2 Flume行业应用 /124
5.3 安装Flume /126
5.4 配置过滤器 /132
5.5 Flume自定义实现 /134
5.6 本章小结 /144
5.7 课后习题 /145
第6章 Kafka开发应用
6.1 Kafka概述 /146
6.2 Kafka的安装与配置 /148
6.3 Kafka API简介 /158
6.4 Kafka监控 /161
6.5 Kafka编程 /166
6.6 本章小结 /171
6.7 课后习题 /172
第7章 PySpark开发应用
7.1 PySpark概述 /173
7.2 PySpark配置 /174
7.3 PySpark常用接口 /176
7.4 PySpark案例 /179
7.5 本章小结 /187
7.6 课后习题 /187
第8章 Flink开发应用
8.1 Flink概述 /189
8.2 FLink部署 /192
8.3 FLink API /197
8.4 Flink项目案例 /206
8.5 本章小结 /233
8.6 课后习题 /233
参与文献 /235
前言21世纪,随着现代信息技术的不断发展,世界已跨入了互联网 大数据时代。大数据产业正在深刻改变着人们的思维、生产和生活方式,正在掀起新一轮的产业和技术革命。大数据技术历经“十三五”期间的孕育成长后,目前大数据已覆盖政府、金融、交通、企业、教育、医疗等各应用领域,与5G通信技术、物联网技术、互联网产业相融合,在大数据技术领域起着重要的支撑作用。特别是在2020年疫情以后,大数据技术这个词已是家喻户晓,其应用极为火爆,为人们的衣、食、住、行提供服务。目前大数据根据企业发行的不同,每家企业都有自己发行的大数据版本。虽然各家企业的大数据处理技术都由自己的研发团队设计,但目前主流的大数据都是基于开源技术的Hadoop大数据平台进行开发与运维的。在从事大数据技术运维与管理的工作中,都是围绕着开源Hadoop系统核心技术去开展工作的。在大数据领域,很多核心技术都是基于开源Hadoop系统的。本书在编写过程中,主要以大数据处理技术生态圈展开。将大数据平台运维教学与企业大数据开发实战运维工作相结合,将目前主流的大数据运维技术整合为大数据综合实训案例知识点,适当融入课程思政的内容,对本书难点、重点部分录制了操作性较强的视频微课,形成一本实操性较强的大数据处理技术专业书籍。读者能够快速了解大数据处理技术和大数据底层开发核心技术,通过理论 综合实训方法,快速掌握目前大数据的核心知识点和技能点。通过本书和社区技术的结合,能够快速提升读者的自学能力,熟练掌握目前主流的大数据处理技术。本书为大数据专业核心课程用书,所涉及的大数据处理技术仅限于教学和读者学习使用,不用于任何商业活动。本书由重庆三峡职业学院的熊泽明教授、北京华晟经世信息技术有限公司的王兴奎工程师担任主编,由重庆三峡职业学院的熊江教授及重庆三峡职业学院余淼副教授、秦阳鸿担任副主编。重庆三峡职业学院的骆伟副教授、廖铃、熊娅、杨勇及纪昌宁高级实验师等参与部分内容的编写及审校工作。在编写过程中,我们得到了业内部分大数据相关企业及工程师的支持和帮助,引用了互联网中的大量资料(包括文本和图片等),核心技术来自大数据技术社区官方帮助文档,在此深表谢意。由于编者能力有限,书中难免存在不足之处,望广大读者不吝赐教。编 者 2022年3月