在数据为主导的今天,对于一种已经成型的模型,“怎么用”通常不是问题,用个软件或者编几行程序就能得到结果了,问题一般都出在模型“什么时候用”和“用完了,然后呢”。《数据分析师养成宝典》就集中讨论后面两件事情。
《数据分析师养成宝典》共27章,分为业务理解篇(第1~4章)、指标设计篇(第5~7章)、数据建模篇(第8~16章)、价值展现篇(第17~19章)和实战进阶篇(第20~27章)。业务理解篇的目的是让读者建立正确的思维观,理解数据,熟悉业务;指标设计篇学习把数据转换为专家数据的一些技巧;数据建模篇以R语言为计算平台实施数据分析全过程;价值展现篇主要讨论如何撰写有价值的数据分析报告;实战进阶篇通过对8个经典案例的分析,使读者能够把学到的思维方法、实施工具应用到解决实际问题中,把数据变成价值。
本书可供数据科学相关技术人员阅读,也可作为高等院校数据科学相关专业的教材或培训教材,以及数据分析爱好者的参考读物。
只要学会数据思维,数据分析任你摆布
只要有想法肯动脑,有无基础皆可学会
只要懂得指标设计,项目落地信手捏来
随着大数据时代的到来,企业管理者对数据价值的重视程度越来越高,他们渴望从企业内部数据、外部数据中获得更多的信息财富,并以此为依据,帮助自己做出正确的战略决策。 如今在数据分析师的岗位上,大多数员工都是非统计专业出身,远远达不到专业数据分析要求,如何能够快速找到突破口,帮助对数据分析有兴趣的人员全面掌握数据分析技巧,基于此,《数据分析师养成宝典旨》在帮助读者解决如下困惑:学习前的困惑学习后将收获什么零基础入门数据分析领域只要有数据思维,数据分析任你摆布不会编程只要有想法,R语言帮你搞定对行业业务流程不了解项目实际操作从业务思路到落地技能全掌握不会写数据分析报告掌握了前三项技能,写数据分析报告是小意思
全书分为5篇:业务理解篇、指标设计篇、数据建模篇、价值展现篇和实战进阶篇,从数据到价值的演化如下图所示。
业务数据化是把数据变为价值的先决条件,目的是建立正确的思维观,理解数据,熟悉业务;对数据描述、概括和分析是把数据变为价值的核心,是一个数据分析项目的实施过程;数据分析报告是数据价值的最终形态,好的数据分析报告是企业决策的重要依据,专业的数据分析报告能体现你的职场价值。
如果把整个数据分析过程比作开饭店,业务数据化相当于菜谱,虽然是纸上谈兵,但也是不可缺少的一环;描述、概括和分析相当于烧菜的厨艺,这是开饭店的先决条件,菜烧得好可以品尝,不能保证盈利;撰写数据分析报告相当于开饭店的理由,关键是说清楚如何让饭店盈利?盈利多少?菜谱、厨艺、开饭店理由三者相辅相成,缺少任何一环,盈利的目标都难以达成。
本书的特点如下:
1落地实用
全书分为5篇,共27章,每一章的内容都从实际业务出发,书中所提供的思维方法、分析框架、数据指标设计与操作步骤都可以直接运用到工作当中。
2重道轻术
“术”是数据分析方法和工具,“道”强调了如何对数据敏感,如何把数据分析工作融入商业思考,弥补许多人只懂理论脱离实践的不足。
3零距离接触行业前沿
本书以R语言为计算平台,无论你是什么专业,无论你是否有编程基础,无论你是否学过统计,要想成为一名数据分析师,本书能帮到你。
4体系完整
近年来,数据分析师可谓是大数据时代最热门的职业,相关的资料五花八门,让读者无所适从。从学科体系来看,无非包括三个层次:理论、工具和技巧。但由于数据分析的特殊性,依赖于思维和业务,所以,市场上成体系的书籍并不多见,大多是讲理论和工具,本书试图在数据分析完整的体系上做些探索。
在本书的编写过程,得到了许多人的支持,再次表示感谢:
感谢南通大学-南通智能信息技术联合研究中心给予的资金资助。
感谢硅湖职业技术学院在培训、实验方面所给予的支持。
感谢南通大学教材建设资金资助。
感谢我的学生沈佳杰、谢璐、胡海涛、姚泽峰、周春瑜、孙丽丽、杨琴和赵丽敏在资料整理方面所做的贡献。
其次,感谢我的妻子和儿女们,正是你们的鼓励和支持,我才会走到今天,你们的鼓励和陪伴永远是我前进的动力。
最后,特别要感谢我的母亲和已故的父亲,感谢你们的养育之恩。仅以此书献给健在的母亲,希望母亲健康,健康,更健康。
数据分析领域发展迅猛,对许多问题作者并未做深入研究,一些有价值的新内容也来不及收入本书。加上作者知识水平和实践经验有限,书中难免存在不足之处,敬请读者批评指正。
如何使用本书
第0章说在前面的话
0.1大数据分析案例
0.2数据分析
0.2.1数据分析不同于信息化系统
0.2.2数据分析不同于统计分析
0.2.3数据分析不同于数据挖掘
0.2.4数据分析不同于数据管理
0.2.5数据分析不同于商业智能
0.2.6数据分析的内容
0.3数据分析师
0.3.1什么是数据分析师
0.3.2基本要求
0.4数据分析过程
0.4.1业务理解
0.4.2指标设计
0.4.3数据建模
0.4.4分析报告
业务理解篇
第1章正确的思维观
1.1数据思维
1.2统计思维
1.2.1统计学
1.2.2描述
1.2.3概括
1.2.4分析
1.3逻辑思维
1.3.1上取/下钻思维
1.3.2求同/求异思维
1.3.3抽离/联合思维
1.3.4离开/接近思维
1.3.5层次思维
第2章理解数据
2.1数据是什么
2.2数据所依存的背景
2.3数据维度
2.4数据敏感
2.5数据质量
2.6理解数据要注意的问题
2.6.1不要对完美数据的盲目执着
2.6.2小样本数据也能做数据分析
第3章理解业务
3.1全局了解——业务模型
3.2动态了解——流程模型
3.3静态了解——数据模型
3.4动静结合——关键业务分析
3.5数据业务化
第4章理解用户
4.1由粗到细,从宏观到微观
4.2由少到多,收集不同层次的需求
4.3数据分析师对理解用户需求的思考
4.3.1如何用需求分析明确产品目标?
4.3.2数据分析师理解用户需求应该具备的基本素养
4.3.3如何根据用户行为去驱动产品?
指标设计篇
第5章数据准备
5.1数据探索
5.1.1缺失值分析与处理
5.1.2异常值分析与处理
5.1.3不一致数据分析
5.2数据整理
5.2.1规范化
5.2.2数据选择
5.2.3数据归约
5.2.4数据变换
5.3数据集成
5.3.1通过向量化重构数据
5.3.2为数据添加新变量
5.3.3数据透视表
5.3.4列联表
5.3.5数据整合
5.3.6分组计算
第6章数据指标
6.1指标和维度
6.2特征工程
6.2.1特征工程作用
6.2.2特征设计
6.2.3特征选择
6.2.4特征提取
6.3指标设计基本方法
6.3.1生成用于判别的变量
6.3.2生成离散变量
6.3.3业务标签化
6.4典型业务指标设计
6.4.1零售店铺数据分析指标
6.4.2电商数据分析指标
第7章数据认知
7.1认知数据的平均水平和波动情况
7.2认知数据的分布
7.3利用相关系数理解数据之间的关系
7.4通过对比认知数据
7.5通过多维交叉来深入认知数据
7.6周期性分析
7.7贡献度分析
7.8因子分析
数据建模篇
第8章神经网络
8.1模型原理
8.2进阶指导
第9章回归分析
9.1模型原理
9.2进阶指导
第10章聚类分析
10.1模型原理
10.2进阶指导
第11章关联分析
11.1模型原理
11.2进阶指导
第12章决策树
12.1模型原理
12.2进阶指导
第13章随机森林决策树
13.1模型原理
13.2进阶指导
第14章自适应选择决策树
14.1模型原理
14.2进阶指导
第15章SVM
15.1模型原理
15.2进阶指导
第16章建模指导
16.1建模要注意的问题
16.2R语言中建模常用包
16.3数据分析模型的原理和应用场景
价值展现篇
第17章如何写好数据分析报告
17.1数据的价值
17.1.1收入
17.1.2支出
17.1.3风险
17.1.4参照系
17.2讲故事
17.2.1数据讲故事的四大要点
17.2.2阿里指数能告诉你……
17.3如何写报告
17.3.1写作原则
17.3.2报告的类型和分析能力
17.3.3报告的细节
17.4报告的结构
17.4.1标题
17.4.2背景与目标
17.4.3项目说明
17.4.4分析思路
17.4.5分析主体
17.4.6总结与建议
17.5文字表达
17.5.1突出关键信息
17.5.2避免啰嗦的表达
17.5.3站在读者角度
17.5.4不带主观臆断
17.6分析过程
17.6.1样本选择
17.6.2方法实施
17.7注意事项
第18章数据可视化
18.1什么是数据可视化
18.2数据可视化的作用
18.3可视化建议
18.4科学与艺术的结合
18.5可视化细节
18.6R语言绘图
18.6.1低水平绘图命令
18.6.2高水平绘图命令
18.6.3交互式绘图命令
18.7图形适用场景
第19章数据分析报告制作工具
19.1knitr包
19.1.1安装knitr
19.1.2Markdown语法
19.1.3报告制作
19.2rmarkdown包
19.2.1创建R Markdown
19.2.2R Markdown文本处理
19.2.3插入代码块
19.2.4结果的输出
实战进阶篇
第20章校园网中推荐者的推荐价值分析
20.1业务理解
20.2指标设计
20.3描述性分析
20.4模型分析
20.5分析报告
第21章上市企业财务报表分析与ST预测
21.1业务理解
21.2指标设计
21.3描述性分析
21.4模型分析
21.5分析报告
第22章为什么销售会减少——验证性分析
22.1业务理解
22.2指标设计
22.3描述性分析
22.4结论与建议
第23章什么样的顾客会选择离开——探索性分析
23.1业务理解
23.2指标设计
23.3描述性分析
23.4结论与建议
第24章哪种广告的效果更好——假设检验
24.1业务理解
24.2数据建模
24.3模型分析
24.4结论与建议
第25章如何获得更多的用户——多元回归分析
25.1业务理解
25.2数据建模
25.3模型分析
25.4结论与建议
第26章航空公司顾客价值分析——聚类
26.1业务理解
26.2指标设计
26.3模型构建
26.4模型评价
26.5结论与建议
第27章窃电用户行为分析——决策树
27.1业务理解
27.2简单指标设计
27.3描述性分析
27.4复杂指标设计