应用回归分析案例--NBA选秀数据分析

孙晓楠

8
文章

0
评论

2018年3月4日06:15:3843 3179字阅读10分35秒

摘要这一篇文章是应用回归分析教程的最后一篇了，这一篇我们来讲一个实例的应用，来把之前的知识点做一下总结。主要会涉及简单的回归，相关系数，主成分分析等的方法。

这一篇文章我们会使用之前学习的回归分析的知识来做一个真实数据的分析，也是在应用中学习吧。下面我们就开始吧。

文章目录(Table of Contents)

背景

NBA选秀（NBA Draft）为一年一度的NBA挑选新球员的盛会。在选秀大会上，30支NBA球队都可以挑选想加入NBA的年轻男性球员，被选中的球员则被称为NBA新秀。

每年在新人们正式参加NBA选秀前，NBA都会举办体能测试训练营来对新人们的身体素质进行衡量和评估。体测全称身体素质测试，在NBA是对球员进行考察及能力评估的重要手段，分为静态体测和动态体测两大项，静态体测包括身高，穿鞋身高，体重，臂展，8次以上的卧推，手掌大小以及站立摸高；动态体测包括纵跳高度，助跑摸高，折返跑速度，3/4场地冲刺，侧向移动速度以及半场定点跑位速度。体测数据是考察球员能力.身体素质.潜力的重要手段. 让球队更直接的了解球员情况的数据。

这项体测不是强制性的，是否参与或者只参与其中几项完全由新秀自行决定，所以会导致很多人的身体数据并不完全，这在一定程度上会影响人们对该球员身体素质的评估以及选秀夜30支NBA球队的选择。

在本例中我们一方面希望能够找出各部分变量间可能存在的关系，另一方面希望能够在其中筛选出具有代表性的体测变量，即仅用一个或几个体测变量的数据便能衡量该球员的整体身体情况如何。

分析

我们找寻了2013、2015、2016这三年的新秀体测数据来进行分析。数据存在缺失，目前我们无法利用现有数据进行补充，不过在我们找到变量间的关系后可以利用模型对部分缺失数据做出一定程度上合理的预测。

一、寻找变量间的关系（以身高—臂展为例）

在删除掉身高臂展中存在缺失的数据后，我们利用SPSS绘制了身高与臂展的散点图，

散点图可以帮助我们更好的观察两个变量间可能存在的关系。

具体实现步骤如下：

应用回归分析案例–NBA选秀数据分析

得到散点图如下：

可以看到这些点大致分布在一条直线附近，这说明身高与臂展间存在较强的线性关系。为进一步说明问题，我们计算了身高与臂展的相关系数，这里先说明一下相关系数的数学原理（关于相关系数的更多知识，可以查看之前写的文章，应用回归分析之简单线性回归(SPSS版本)）：

最小二乘法

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

对于一元线性回归模型, 假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

（1）用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。

（2）用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。

（3）最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。（Q为残差平方和）- 即采用平方损失函数。

具体操作如下：

应用回归分析案例–NBA选秀数据分析

得到结果如下：

因此我们得到一个用臂展做自变量，身高做因变量的线性方程，对于身高缺失但臂展存在的球员数据可以利用该方程对其身高进行预测。
从本问中看出，身高与臂展间存在较强的线性关系，而且还可利用他们计算得到的方程进行数据预测，其他变量的关系与缺失数据的补充可用类似的方法得到。

二、探究变量间的共线性关系（以体重作为因变量为例）

从上例中我们可以看出，身高与臂展间存在很强的线性关系，如果在预测其他变量时同时在自变量中选择了身高和臂展，那么自变量中便存在了共线性关系，通常来说我们不希望自变量间存在共线性关系，这通常会导致回归系数值的不合理，因此我们需要寻找哪些变量与其他变量有共线性关系。常用的方法便是方差膨胀因子法。（关于膨胀因子的介绍可以看下面的链接：应用回归分析之寻找共线性变量）