全书共九章,内容包括数据概述、聚类分析、判别分析、主成分分析、因子分析、线性模型、统计诊断、有偏估计、变量选择。各章都有丰富的例题和案例,为加深每章内容的理解,每章的练习也分为理论和实证部分,书后附有参考答案,为使书中案例贴近数据的应用实际,采用了获取方便的证券市场高频数据,并使用国际通用的R软件进行数据收集、处理、加工和分析,便于读者自己动手和实际应用需要。全书内容讲解简明扼要,注重应用,让读者收集数据开始,掌握数据收集、整理和大数据统计分析的全过程。
更多科学出版社服务,请扫码获取。
1952年,芝加哥大学的马科维兹(Markowitz)首次采用股票收益率历史数据的方差,作为风险衡量指标,并指出与证券市场的整体运行相关联的宏观系统风险不能通过投资分散化加以消除,称为不可分散风险。马科维兹在投资者效用的基础上,将复杂的投资决策问题简化为一个风险(方差)-收益(均值)的二维问题,即在相同的期望收益条件下,投资者选择投资风险最小的证券(组合),或在相同的投资风险下,选择预期收益率证券(组合)。开统计方法应用于金融市场之先河。1978年,西蒙斯(Simons)开发了许多数学模型用来进行分析和交易,这些基本上是自动完成。他用计算机编程建立模型分析股票价格,从而能进行很轻松的交易并获利。这些模型是建立在海量的数据基础上的,所以具有可靠性并可进行实际预测,1989~2009年,他操盘的大奖章基金平均年回报率高达35%,较同期标普500指数年均回报率高20多个百分点,比金融大鳄索罗斯和股神巴菲特的操盘表现都高出10余个百分点。即便是在次贷危机爆发的2007年,该基金的回报率仍高达85%。西蒙斯成就了世界上最伟大的对冲基金之一:大奖章基金。大数据的历史相对较晚一些。2008年年末,大数据才得到部分美国知名计算机科学研究人员的认可,但在2013年,大数据就已经风靡全球,成为一个时代的符号。我们早在2002年开始从事金融数据挖掘研究和教学,2011年正式给本科生开设证券数据统计建模与实证分析课程,2013年结合大数据发展,给硕士生和博士生开设了金融大数据统计方法与实证的课程。
目录
前言
第1章大数据概述1
一、大数据的数字特征3
二、大数据的图表示6
练习1 12
第2章聚类分析13
一、相似性度量13
二、系统聚类法17
三、变量聚类法23
四、动态聚类法28
练习2 29
第3章判别分析31
一、距离判别31
二、费歇判别38
三、贝叶斯判别42
练习3 50
第4章主成分分析51
一、基本思想51
二、样本主成分52
三、特征值因子的筛选57
四、主成分分类66
练习4 68
第5章因子分析69
一、因子分析模型70
二、因子旋转73
三、因子得分76
练习5 82
第6章线性模型83
一、线性模型及参数的最小二乘估计83
二、最小二乘估计的性质85
三、线性模型的显著性检验87
四、正回归93
练习6 96
第7章回归诊断98
一、残差102
二、残差图106
三、异常点110
练习7 113
第8章有偏估计115
一、均匀压缩估计115
二、主成分估计117
三、岭估计122
练习8 126
第9章变量选择128
一、变量选择准则128
二、逐步回归130
三、绝对约束估计132
四、弹性约束估计135
五、非负约束估计139
练习9 142
练习提示与参考答案143
参考文献152
附录R应用程序153