《多元统计分析》是为统计、数学、大数据相关专业的学生或者在工作学习中需要面对数据分析的朋友开设的统计学课程,旨在教授分析多元数据的统计方法,特别是这些分析方法的具体实施及对应结果解释。主要内容包含多元数据的可视化、矩阵表示及数值特征、多元正态分布、多元统计检验、主成分分析、因子分析、判别分析与分类分析、聚类分析等。在本门课程中运用R作为编程语言。课程会从实际的应用场景和方法动机讲起,介绍这些多元统计分析方法的数学逻辑、编程实例、和它们背后的故事,提高学生从业务问题中提炼统计问题、并将其转化为数据可分析的问题的能力;帮助学生找到解决问题的统计方法,评估可行性、设计问卷、收集样本及数据、分析数据、解决分析过程中遇到的问题、将分析结果回归到业务场景模式中、最终回答业务问题并给出建议或预测。

一、什么是多元统计分析

一元统计分析是研究一个随机变量统计规律的学科,有其理论和现实的局限性。多元统计分析,顾名思义,是对多维随机变量进行分析和研究,研究它们之间的相互依赖关系以及内在统计规律性的统计学科。如何同时对多个随机变量的观测数据进行有效的分析和研究?

假如把多个随机变量分开分析,每个随机变量用一元统计分析方法研究,就不会清楚多个变量之间的相关性,会丢失信息,不易获得好的研究结果。科学的方法是对多个变量同时进行分析研究,采用多元统计分析方法,通过同时对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律。法国著名数学家庞加来(J.H.Poincaré,1854—1912年)说过,“如果我们想预测数学的未来,那么正确的途径是研究其历史与现状”。史学研究是任何学科永恒的研究主题,多元统计学自然不能例外,统计学史上曾涌现多位杰出的多元统计学家。首先涉足多元分析方法的是英国统计学家高尔(F.Galton),他于1889年把双变量的正态分布方法运用于传统的统计学,他于六年中测量了近万人的“身高、体重、阔度、呼吸力、拉力和压力、手击的速率、听力、视力、色觉及个人的其他资料”,在探究这些数据内在联系的过程中提出了今天在自然科学和社会科学领域中广泛应用的“相关”思想,创立了线性回归,他的学生皮尔逊(K.Pearson)受其影响,给出积矩相关系数、复相关等研究多个变量之间关系的概念和方法。其后,斯皮尔曼(C.E.Spearman)提出对多维变量进行降维的因子分析法,费希尔(R.A.Fisher)提出方差分析和判别分析,美国的威尔克(S.S.Wilks)发展了多元方差分析,美国的霍特林(H.Hotelling)确定了主成分分析和典型相关分析。到20世纪前半叶,多元分析理论基础基本确立,1928年英国的维希特(J.Wishart)发表论文《多元正态总体样本协方差阵的精确分布》,是学术界公认的多元统计分析理论研究的开端。R.A.Fisher、H.Hotelling、S.N.Roy、M.A.Girshick、许宝騄等人做了一系列奠基的工作,使多元统计分析在理论上得迅速的发展,在许多领域中有了实际应用。21世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智能、数据库技术相结合,已在经济、商业、金融、天文等行业得到成功应用。为了更清楚地了解多元统计分析史的发展脉络,我们给出下图描述多元分析的发展。


邮箱
huangbenjincv@163.com