大数据采集与预处理（微课版）_宋磊陈天真崔敏_9787115639158_湖南知新文化传播有限公司读者荐购服务

本书按照大数据采集与预处理的实现流程，由浅入深地讲解大数据采集与预处理的相关技术，以及如何使用不同方式对大数据进行采集与预处理。本书内容系统、全面，可帮助开发人员快速实现大量数据的采集。

本书主要内容包括大数据采集与预处理简介、PyCharm的安装与使用、Urllib库数据采集、Requests库数据采集、XPath和Beautiful Soup库数据解析、Scrapy框架数据采集与存储、Flume和Kafka日志数据采集以及使用Pandas、Pig、ELK进行数据预处理等。

本书既可作为高职高专院校大数据、人工智能相关专业的教材，也可作为相关技术人员的参考书。

目录 CONTENTS

项目1

初识动态网页数据采集与

预处理　1

项目导言　1

思维导图　1

知识目标　1

技能目标　1

素养目标　2

任务1-1　认识数据采集与预处理　2

任务描述　2

素质拓展　2

任务技能　2

技能点1　认识大数据来源　2

技能点2　认识数据采集　5

技能点3　认识数据预处理　10

任务1-2　搭建数据采集与预处理开发

环境　14

任务描述　14

素质拓展　14

任务技能　14

技能点1　认识PyCharm　14

技能点2　下载及安装PyCharm　15

技能点3　使用PyCharm　18

任务实施　20

项目小结　24

课后习题　24

自我评价　25

项目2

动态网页数据采集　26

项目导言　26

思维导图　26

知识目标　26

技能目标　26

素养目标　27

任务2-1　使用Urllib库完成新闻

动态网页数据采集　27

任务描述　27

素质拓展　27

任务技能　27

技能点1　request模块　27

技能点2　error模块　30

技能点3　parse模块　31

任务实施　32

任务2-2　使用Requests库完成

浪潮云说网页数据

采集　36

任务描述　36

素质拓展　37

任务技能　37

技能点1　Requests库的简介及

安装　37

技能点2　Requests库的基本使用

方法　38

技能点3　Requests库的高级使用

方法　42

任务实施　45

项目小结　48

课后习题　48

自我评价　49

项目3

动态网页数据解析　50

项目导言　50

思维导图　50

知识目标　50

技能目标　50

素养目标　51

任务3-1　使用XPath解析新闻

动态网页数据　51

任务描述　51

素质拓展　51

任务技能　51

技能点1　XPath的简介　51

技能点2　定位　55

技能点3　数据提取　57

任务实施　58

任务3-2　使用Beautiful Soup

解析浪潮云说网页

数据　63

任务描述　63

素质拓展　63

任务技能　63

技能点1　Beautiful Soup的安装　64

技能点2　Beautiful Soup的使用　65

任务实施　68

项目小结　75

课后习题　75

自我评价　76

项目4

基于Scrapy实现动态网页

数据采集与存储　77

项目导言　77

思维导图　77

知识目标　77

技能目标　77

素养目标　78

任务4-1　使用Scrapy框架完成

新闻公告页面数据采集

与存储　78

任务描述　78

素质拓展　78

任务技能　78

技能点1　Scrapy的简介及安装　78

技能点2　Scrapy的操作指令　82

技能点3　段定义及Scrapy设置　83

技能点4　文本解析　89

技能点5　内容存储　93

任务实施　95

项目小结　104

课后习题　104

自我评价　105

项目5

动态网页访问日志数据

采集　106

项目导言　106

思维导图　106

知识目标　106

技能目标　106

素养目标　107

任务5-1　使用Flume采集某官网

访问日志数据　107

任务描述　107

素质拓展　107

任务技能　107

技能点1　Flume的简介　107

技能点2　Flume数据采集配置　110

技能点3　Flume的启动方法　119

技能点4　Flume拦截器配置　122

任务实施　125

任务5-2　使用Kafka消费Flume中

某官网访问日志数据　129

任务描述　129

素质拓展　130

任务技能　130

技能点1　Kafka的简介　130

技能点2　Kafka的配置　131

技能点3　Kafka脚本操作　134

技能点4　Kafka Python API　137

任务实施　140

项目小结　144

课后习题　144

自我评价　145

项目6

动态网页数据预处理　146

项目导言　146

思维导图　146

知识目标　147

技能目标　147

素养目标　147

任务6-1　使用Pandas实现新闻动态

网页数据预处理　147

任务描述　147

素质拓展　147

任务技能　148

技能点1　Pandas的简介　148

技能点2　Pandas的数据结构　148

技能点3　Pandas的基本功能　149

技能点4　汇总和描述统计　155

技能点5　处理缺失数据　157

任务实施　158

任务6-2　使用Pig实现浪潮云说

网页数据预处理　161

任务描述　161

素质拓展　161

任务技能　162

技能点1　Pig的简介　162

技能点2　Pig配置运行　162

技能点3　Pig Latin执行　165

技能点4　运算符　166

技能点5　内置函数　171

任务实施　177

任务6-3　使用ELK实现某官网日志

数据预处理　182

任务描述　182

素质拓展　182

任务技能　182

技能点1　Elasticsearch　182

技能点2　Logstash　184

技能点3　Kibana　195

任务实施　200

项目小结　207

课后习题　207

自我评价　208

你还可能感兴趣

我要评论