本书是中国科协新一代信息技术系列丛书之一。
本书重点阐述大数据的基本原理、技术、平台和不同领域的应用案例。全书共分14章,第1章为绪论;第2~7章为技术篇,介绍了数据采集与治理、数据管理、数据分析、数据可视化、数据安全与隐私保护和大数据处理平台;第8~12章为应用篇,介绍了大数据在不同领域的应用案例,包括社会网络大数据、城市大数据、工业大数据、教育大数据和农业大数据;第13、14章为数据管理篇,包括数据开放与共享和大数据的法律政策规范。
本书主要面向大学非计算机类的工科专业的高年级学生与研究生,亦可作为大数据爱好者的科普读物。
本书配有免费的电子课件,欢迎选用本书作教材的老师登录www.cmpedu.com注册下载。
前言
当前,新一代信息技术正在全球孕育兴起,科技创新、产业形态和应用格局正发生着重大变革。
随着数据获取和计算技术的进步,大数据已成为一种新的国家战略资源,引起了学术界、产业界、政府及行业用户等的高度关注。世界主要发达国家已经相继制定了促进大数据产业发展的政策法规,积极构建大数据生态,实施大数据国家战略。
我国充分认识到大数据时代带来的重大机遇,部署落实了一系列与大数据密切相关的规划。2015年,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。目前,多个省市已经出台大数据相关政策,一些地方政府专门设置大数据管理部门,为大数据基础设施、技术创新、产业发展营造了良好环境。党的十九大报告在深化供给侧结构性改革中指出:“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能。”更加明确大数据应与各个行业深度融合。
为落实国家战略,加速新一代信息技术人才培养,满足数字经济发展的人才需求,为实现经济高质量发展提供人才支撑,中国科协策划并组织编写以云计算、大数据、人工智能等为代表的新一代信息技术系列丛书,成立了中国科协新一代信息技术系列丛书编写委员会,聘请梅宏院士为编委会主任,
李培根院士、李德毅院士、李伯虎院士、张尧学院士、李骏院士、谭铁牛院士、赵春江院士
为编委会委员,统筹丛书编写工作。本书是该系列丛书之一。
本书主要面向大学非计算机类的工科专业的高年级学生与研究生,目的是帮助学生掌握大数据的基本原理和基本知识,熟悉大数据技术在多个行业应用中“能与不能”的边界,培养学生在本专业应用大数据的能力。同时,对于计算机相关专业的学生,本书也可作为大数据专业课程的导论课教材。本书注重知识结构的基础性与完整性,确保技术内容的通用性、普适性与先进性,遵循教育规律,加强能力培养,同时,精选行业真实案例,开阔学生视野,启发创新思维。本书期望为跨学科研究者提供学科方法论和技术概述,满足新一代信息技术人才的要求。
本书可分为四部分。基础篇(第1章)介绍大数据的发展历程、内涵和外延、价值与意义;技术篇(第2~7章)以数据采集与治理、数据管理、数据分析与可视化的典型大数据应用生命周期作为主线,对大数据关键技术进行讲解,进而阐述数据安全与大数据平台的关键技术
,努力呈现技术的逻辑性和严密的科学思维;应用篇(第8~12章)使学生熟悉大数据的典型应用领域,从社会网络大数据、城市大数据、工业大数据、教育大数据和农业大数据方面进行案例剖析,满足多个学科的教学需求;数据管理篇(第13、14章)则让学生了解数据开放与共享和法律政策规范等方面的现状。本书的具体结构如下图所示:
本书采用模块化教学思维进行编写,授课教师和学生可以根据专业和现有知识结构,选取不同的教学方案。本书教学建议为32~48学时,基础篇和技术篇建议16~20学时,应用篇
建议14~24学时,数据管理篇建议2~4个学时或由学生自学。根据不同专业的实际情况,教师可以根据学时安排选择1~2个不同行业应用进行重点讲解,满足教学需求。
本书的编写汇集了多位专家学者的智慧。本书主编张尧学院士、胡春明副教授带领编写组全体成员,从教学理论和学术研究等多角度系统地进行顶层设计和撰写工作。本书第1章由胡春明编写,第2章由王宏志编写,第3章由王建民编写,第4章和第8章由唐杰编写,第5章由袁晓如编写,第6章由朱跃生编写,第7章由吴中海编写,第9章由吕金虎编写,第10章由王晨编写,第11章由陈恩红编写,第12章由吴华瑞编写,第13章由
刘闯、王德庆编写,第14章由马民虎编写。全书由胡春明统稿。
本书邀请了李德毅院士、梅宏院士和百度公司王海峰博士
前言
基础篇
第1章绪论
1.1概述
1.1.1数据
1.1.2数据中蕴含的价值
1.1.3获取数据中蕴含的价值
1.2大数据的内涵和外延
1.2.1大数据时代的驱动力
1.2.2大数据的概念和特征
1.2.3大数据带来的思维模式改变
1.2.4大数据的作用和意义
1.3大数据的技术挑战和科学意义
1.3.1数据处理的一般过程
1.3.2大数据计算面临的挑战
1.3.3大数据计算的特点
1.3.4大数据计算平台
1.3.5大数据与云计算、人工智能的关系
1.4数据科学
1.4.1数据科学的提出
1.4.2数据科学的范畴
1.4.3数据科学对学科发展的影响
习题
参考文献及扩展阅读资料
技术篇
第2章数据采集与治理
2.1概述
2.2大数据的来源与多源数据的采集方式
2.2.1大数据的来源
2.2.2多源数据的采集
2.2.3数据离散化
2.3大数据治理
2.3.1大数据治理的框架
2.3.2数据集成和跨界应用的数据集成方法
2.3.3数据变换
2.3.4数据质量的检验与提升
习题
参考文献及扩展阅读资料
第3章数据管理
3.1概述
3.2分布式文件系统
3.2.1Hadoop
3.2.2Ceph
3.2.3GlusterFS
3.2.4分布式文件系统对比
3.3关系数据库
3.3.1关系数据模型
3.3.2结构化查询语言
3.3.3数据库事务
3.3.4关系数据库管理系统
3.3.5SQL on Hadoop系统
3.4NoSQL数据库
3.4.1键值对数据库
3.4.2文档数据库
3.4.3列族数据库
3.4.4图数据库
3.4.5时序数据库
3.5多模态数据管理
习题
参考文献及扩展阅读资料
第4章数据分析
4.1概述
4.2统计数据分析
4.2.1数据描述性分析
4.2.2回归分析
4.3基于机器学习的数据分析
4.3.1非监督学习方法
4.3.2监督学习方法
4.4图的数据分析
4.4.1图的基本概念
4.4.2中心性和相似性分析
4.4.3社交网络上的算法
4.5自然语言中的数据分析
4.5.1词表示分析
4.5.2语言模型
4.5.3话题模型
习题
参考文献及扩展阅读资料
第5章数据可视化
5.1概述
5.2数据可视化主要技术
5.2.1高维数据可视化
5.2.2网络数据可视化
5.2.3层次结构数据可视化
5.2.4时空数据可视化
5.2.5文本数据可视化
5.3高可扩展可视化技术
5.3.1科学可视化中的高可扩展性
5.3.2支持数据高效的存储和检索的可视化
5.3.3支持可扩展可视化的交互手段
5.4大数据可视化与可视分析案例
5.4.1VAST Challenge 2017的可视分析案例
5.4.2车辆轨迹数据的可视分析案例
5.5可视化工具和软件
5.5.1高维数据可视化工具
5.5.2文本可视化工具
5.5.3网络可视化工具
5.5.4可视化编程工具
习题
参考文献及扩展阅读资料
第6章数据安全与隐私保护
6.1概述
6.1.1数据安全与传统信息安全的共异点
6.1.2数据采集及传输中的安全与隐私
6.1.3数据存储的安全与隐私
6.1.4数据分析挖掘及处理的安全与隐私
6.1.5数据交互、共享与服务的安全与隐私
6.2数据安全及隐私保护支撑技术
6.2.1密码学基础及关键技术
6.2.2公钥基础设施
6.2.3授权管理基础设施
6.2.4PKI与PMI协同工作原理
6.2.5秘密分割与共享管理技术
6.3数据脱敏技术与实践
6.3.1数据交互安全与脱敏技术
6.3.2静态数据脱敏技术
6.3.3动态数据脱敏技术
6.3.4数据脱敏实例
6.4数据生命周期安全的防护及管理体系
6.4.1数据安全防护体系
6.4.2数据安全标准
6.4.3数据生命周期安全实施方案与数据安全管理
习题
参考文献及扩展阅读资料
第7章大数据处理平台
7.1概述
7.2大数据处理平台架构
7.2.1技术架构
7.2.2开源平台
7.3批量大数据计算
7.3.1基本概念
7.3.2典型批量计算系统
7.3.3实例:微博用户群体年度热词统计
7.4流式大数据计算
7.4.1基本概念
7.4.2典型流式计算系统
7.4.3实例:微博用户群体实时热门话题分析
7.5大规模图数据计算
7.5.1基本概念
7.5.2典型图计算系统
7.5.3实例:微博用户影响力排名
7.6内存大数据计算
7.6.1基本概念
7.6.2典型内存计算系统
7.6.3Spark Streaming和GraphX
习题
参考文献及扩展阅读资料
应用篇
第8章社会网络大数据
8.1概述
8.2社会网络大数据面临的挑战
8.3社会网络中的用户影响力
8.3.1影响力检测实验
8.3.2影响力传播模型
8.3.3影响力度量算法
8.3.4社会影响力应用
8.4在线社会媒体中信息传播的建模与预测
8.4.1网络信息传播模型
8.4.2传播网络推断
8.4.3影响力最大化
8.4.4信息传播预测
习题
参考文献及扩展阅读资料
第9章城市大数据
9.1概述
9.1.1城市数据的分类
9.1.2城市数据的特点
9.2智慧城市
9.2.1智慧城市的概念
9.2.2智慧城市的发展现状
9.2.3智慧城市的未来趋势
9.3智慧城市的技术体系框架
9.3.1智慧城市的技术框架
9.3.2以数据为中心的智慧城市特点
9.3.3智慧城市中的典型应用与服务
9.4城市大数据应用案例
9.4.1交通大数据的来源与种类
9.4.2交通大数据的分析与处理
9.4.3交通大数据的应用成果
9.5城市大数据未来展望
习题
参考文献及扩展阅读资料
第10章工业大数据
10.1概述
10.1.1工业大数据的内涵
10.1.2工业大数据的特点
10.2工业大数据典型应用场景
10.2.1现有业务优化
10.2.2促进企业升级转型
10.3工业大数据关键技术
10.4工业大数据分析技术
10.4.1工业大数据分析工作准备
10.4.2工业大数据分析工作实施
10.5工业大数据分析案例
10.5.1大唐集团工业大数据应用实践
10.5.2中联重科工业大数据应用实践
习题
参考文献及扩展阅读资料
第11章教育大数据
11.1概述
11.2教育大数据的采集与应用场景
11.2.1信息化校园
11.2.2智能辅导系统和在线题库
11.2.3大规模开放式网络课程
11.3认知诊断分析
11.3.1认知诊断任务描述
11.3.2经典认知诊断方法
11.3.3基于大数据的深度认知诊断
11.4知识跟踪分析
11.4.1知识跟踪任务描述
11.4.2经典知识跟踪方法
11.4.3联合知识跟踪
11.5习题资源分析与挖掘
11.5.1相似习题判定任务描述
11.5.2相似习题判定技术
11.5.3其他习题分析与挖掘应用
11.6MOOC平台活跃度预测
11.6.1活跃度预测任务描述
11.6.2活跃度预测分析方法
11.7教育大数据应用案例
11.7.1基于大数据分析的学生“隐形补助”体系
11.7.2基于大数据技术的个性化学习
习题
参考文献及扩展阅读资料
第12章农业大数据
12.1概述
12.1.1智慧农业
12.1.2农业大数据分类
12.1.3农业大数据的特点与技术挑战
12.2农业大数据应用
12.2.1农业大数据应用价值
12.2.2农业大数据典型应用场景
12.3农业大数据关键技术
12.3.1农业大数据平台架构
12.3.2农业大数据标准化与共享技术
12.3.3农业大数据分析技术
12.4农业大数据应用案例
12.4.1农保姆全产业链智能服务大数据应用案例
12.4.2农技推广大数据应用案例
习题
参考文献及扩展阅读资料
数据管理篇
第13章数据开放与共享
13.1概述
13.1.1数据开放与共享的概念
13.1.2数据开放与共享的发展历程
13.2数据开放与共享的原则与政策
13.2.1数据开放与共享原则
13.2.2国外数据开放与共享政策
13.2.3中国数据开放与共享政策
13.2.4数据开放与共享实施指南
13.3数据开放与共享分类
13.3.1政府数据开放与共享
13.3.2公共财政资助产生的科学数据开放与共享
13.3.3企业数据开放与共享
13.3.4个人数据开放与共享
13.4数据开放与共享平台
13.4.1数据开放与共享综合平台
13.4.2数据开放与共享领域平台
13.4.3数据开放与共享平台的基本功能
13.4.4数据开放与共享平台的产权保护
习题
参考文献及扩展阅读资料
第14章大数据的法律政策规范
14.1中国大数据政策法规指引
14.1.1中国大数据政策法规发展过程
14.1.2中国的数据保护监管机构
14.2数据主权与数据权利
14.2.1数据主权
14.2.2数据权利
14.2.3数据权利主体和其他利益相关主体
14.3个人数据立法保护
14.3.1国外个人数据保护制度
14.3.2中国个人数据保护制度
14.4数据跨境流动监管法律机制
14.4.1国外数据跨境及数据本地化立法
14.4.2中国数据跨境流动法律制度
14.4.3数据跨境流动法律制度设计
14.5科技伦理
14.5.1科技伦理问题的影响和特征
14.5.2科技伦理研究
习题
参考文献及扩展阅读资料