本书包含10章,分为:第1章,阐述数据分析的基础理论;第2章,介绍数据清洗和数据获取的知识和方法;第3章至第9章,覆盖了基础统计分析、多维数据分析、时序数据分析、地理数据分析、图数据分析、文本数据分析和多媒体数据分析,包括每种分析方法的基础定义、分析方法和工具使用到具体领域的可视化实用案例;第10章,以中国社会发展数据演示分析方法的使用。书中提到的基础理论知识都有配套的在线实践工具,能够让用户在学习基础理论知识之后和实践进行连接,真正达到学以致用的效果。通过实践工具,用户可以实现独自完成数据可视化分析案例的产出。本书采用了可视化辅助分析的办法,通俗易懂,不拘泥于数学公式。 本书不仅可作为数据分析初学者的入门手册,也可作为数据分析学者进行数据研究和案例分析的参考指南。
成生辉,香港中文大学深圳和深圳市大数据研究院研究科学家,大数据可视化实验室负责人,Dagoo平台创始人。博士毕业于石溪纽约州立大学计算系,曾在德国弗里德里希·席勒大学,德国莱比锡大学医学研究所,美国布鲁克海文国家实验室和哈佛大学进行访问研究。先后在2015 和2016 国际可视化年会上获得海报提名奖,并受邀在大会上担任授课导师。他担任2019年国际可视化年会(短文)程序委员会委员,中国可视化与可视分析专委会委员,CSIG-VIS 2019高峰论坛(深圳)执行主席,入选深圳市海外高层次人才。近期,他被世界银行聘为顾问。
第1章 引言 1
1.1 大数据的发展历程 1
1.2 大数据的概念和定义 3
1.2.1 大量(Volume) 4
1.2.2 多样(Variety) 5
1.2.3 价值密度低(Value) 5
1.2.4 高速(Velocity) 5
1.2.5 真实性(Veracity) 6
1.3 大数据对社会的影响 6
1.3.1 大数据促进经济发展 6
1.3.2 大数据提升社会保障 7
1.3.3 数据治国 8
1.4 大数据的分析方法 9
1.4.1 统计 9
1.4.2 数据挖掘 10
1.4.3 人工智能 11
1.5 数据可视化技术 11
1.5.1 可视化历史 11
1.5.2 可视化概述 12
1.5.3 可视化应用 15
第2章 数据预处理 17
2.1 什么是网络爬虫 17
2.2 网络爬虫的实现 18
2.2.1 Python编程语言 18
2.2.2 正则表达式 19
2.2.3 超文本标记语言 21
2.2.4 超文本传输协议 23
2.3 数据清洗 24
2.3.1 处理缺失值 24
2.3.2 处理异常值 25
2.3.3 处理噪声 26
第3章 基础统计分析 29
3.1 统计学的基本概念 29
3.2 连续变量的统计描述 30
3.2.1 频数 30
3.2.2 集中趋势描述指标 32
3.2.3 离散趋势描述指标 33
3.3 分类变量的统计描述 33
3.4 常用统计图 34
3.4.1 饼图 35
3.4.2 柱状图 36
3.4.3 散点图 38
3.4.4 折线图 39
3.5 统计分析应用示例 41
3.5.1 人口变化总趋势 41
3.5.2 人口结构变化 42
3.5.3 二胎与生育率 43
第4章 多维数据分析 45
4.1 多维数据概述 45
4.2 多维数据过滤分析 46
4.3 相关性分析 50
4.3.1 一般性相关性分析 50
4.3.2 多维数据可视化相关性分析 51
4.4 聚类分析 52
4.5 降维分析 54
4.5.1 主成分分析 54
4.5.2 多维尺度变换 56
4.5.3 T分布随机邻域嵌入 57
4.6 多维特征提取 58
4.6.1 雷达图 59
4.6.2 用户画像 59
4.6.3 Radviz特征提取 60
4.7 多维数据分析应用示例 61
4.7.1 郡县特征的关联度 61
4.7.2 多维度分析得票率的关键因素 63
第5章 时序数据分析 65
5.1 时序数据概述 65
5.2 多维时序数据呈现折线 67
5.3 多维时序数据呈现柱状 69
5.4 预测分析 72
5.4.1 移动平均 72
5.4.2 指数平滑 73
5.4.3 三次指数平滑 74
5.5 周期性检测 75
5.6 时序分析应用示例 77
5.6.1 美国各州新冠病毒肺炎确诊病例数的动态变化 77
5.6.2 美国纽约州、加州疫情发展变化 79
5.6.3 美国疫情总体态势 80
5.6.4 美国疫情预测 81
第6章 地理数据分析 83
6.1 地理热度分析 83
6.2 地理空间分析 86
6.3 连接地图 87
6.4 地理分析应用示例 88
6.4.1 美国疫情确诊情况 88
6.4.2 美国疫情死亡情况 90
6.4.3 美国疫情传播分析 91
6.4.4 宅在家里还是出门旅行 93
第7章 图数据分析 95
7.1 图数据概述 95
7.2 树图 96
7.3 图数据的量化可视化分析 98
7.3.1 矩形树图 98
7.3.2 旭日图 98
7.4 图数据嵌套关系分析 99
7.4.1 矩形堆积图 99
7.4.2 圆堆积图 100
7.5 图数据中的关联数据 101
7.5.1 弧线图 101
7.5.2 极坐标弧线图 101
7.5.3 弦图 102
7.5.4 冲积图 103
7.6 力导向布局分析 104
7.6.1 力导向设计思路 104
7.6.2 力导向布局优点 104
7.6.3 力导向布局缺点 105
7.7 搜索算法 105
7.7.1 广度优先搜索算法 106
7.7.2 深度优先搜索算法 108
7.8 短路径算法 109
7.9 图分析应用示例 109
7.9.1 美国人口普查分区 110
7.9.2 美国新冠病毒肺炎确诊病例按人口普查分区分布 110
第8章 文本数据分析 115
8.1 文本数据概述 115
8.2 文本向量化 116
8.2.1 词袋模型 116
8.2.2 Word2Vec模型 116
8.3 分词 118
8.4 关键词提取 120
8.5 知识图谱 121
8.6 其他文本处理技术简介 122
8.7 文本分析应用示例 124
8.7.1 特朗普和拜登社交媒体回复舆情分析 124
8.7.2 特朗普和拜登在社交媒体上的宣传策略 125
8.7.3 小结 127
第9章 多媒体数据分析 129
9.1 数字图像处理 129
9.1.1 亮度调整 130
9.1.2 直方图均衡化 132
9.1.3 高斯平滑 133
9.1.4 边缘检测 135
9.2 数字音频处理 135
9.3 数字视频处理 137
9.4 多媒体分析应用示例 137
第10章 综合应用示例:中国社会发展调研 139
10.1 经济总体指标分析 139
10.2 城镇化发展分析 142
10.3 国际影响力分析 145
10.4 科技发展分析 147
10.5 教育发展分析 149
10.6 文化发展分析 151
10.7 医疗卫生发展分析 153
10.8 环境治理状况分析 154
10.9 居民收入变化分析 156
参考资料