SAS教程_统计软件教程（李东风版）_sas

王茂南

3303
文章

75
评论

2017年10月22日06:00:50

评论3 3236字阅读10分47秒

摘要在这个新的教程中，我会结合《统计软件教程》（李东风版）这本数给出教程，并给出这本书第1到第5章的课后习题答案。希望大家能有所收获。这里给出的是《统计软件教程》（李东风版）这本书第一章的答案。

今天我们就来看一下《统计软件教程》（李东风版）这本书的第一章的课后习题的解答。

文章目录(Table of Contents)

1.1

题目要求

1.1.1

认识界面

打开界面后可以看到输出框，编辑框和日志。其中我们在编辑框输入代码，会在输出框中看到输出的结果，在日志里可以看是否会报错。在左边的结果中可以看到刚刚保存的数据集。

1.1.2

首先在解决方案中选择分析->交互式数据分析。

在弹出的数据框中选择新建。

再点击帮助->创建样本即可。

1.1.3

我们可以在sasuer中看到我们刚刚生成的数据集，如下图所示。

1.1.4

代码

title'95级1班学生成绩排名';
data c9501;
input name$ sex $ math chinese;
avg = math*0.5 + chinese/120*100*0.5;
cards;
李明男 92 98
张红艺女 89 106
王思明男 86 90
张聪男 98 109
刘颖女 80 110
;
run;
proc print data = c9501;
run;
proc sort data=c9501;
by descending avg;
run;
proc print data=c9501;
run;

输出效果

1.1.5

在INSIGHT窗口输入C9501的数据结果如下：

1.2

题目要求

从表格可以看出，不能拒绝正态分布的原假设。

从上面的表格可以看出正态分布的大致情况，和其均值的90%的置信区间，为(149.217 , 167.0981)

从上面的图形和表格可以大致看出其直方图和标准正态分布的比较，和正态分布的参数的大致情况，如均值为158，Sigma为22.5和众数158。

1.3

题目要求

1.3.1

我们依次做出各个变量的直方图，通过直方图查看变量的分布形状。并通过箱线图查看其均值，分散程度，极端值。

首先我们看变量gpa的直方图和箱线图，并给出矩统计量，其中包含均值，标准差，偏差等。

接着我们看变量hsm的直方图和箱线图，并给出矩统计量，其中包含均值，标准差，偏差等。

接着我们看变量hss的直方图和箱线图，并给出矩统计量，其中包含均值，标准差，偏差等。

接着我们看变量hse的直方图和箱线图，并给出矩统计量，其中包含均值，标准差，偏差等。

接着我们看变量satm的直方图和箱线图，并给出矩统计量，其中包含均值，标准差，偏差等。

接着我们看变量satv的直方图和箱线图，并给出矩统计量，其中包含均值，标准差，偏差等。

最后我们看变量sex的直方图和箱线图。

1.3.2

为了研究gpa的分布，我们首先画出其直方图，并于正态分布的概率密度曲线做比较。查看其累计分布和做正态性检验。

通过正态性检验，我们发现p-值＜0.05，故我们拒绝原假设，认为gpa的数据不符合正态分布。
但是我们也可以发现gpa特别高的很少，特别低的也很少，大多还是集中在4.5分。

1.3.3

使用sort ... by ...函数对gpa数据进行排序，默认是从低到高排序，我是加上descending后可以从高到低排序。代码和做出的结果如下：

Data SAS2_11;
Set SASuser.GPA;
run;
Proc sort data=SAS2_11;
by sex descending gpa;
Run;
Proc print data=SAS2_11;
Run;

1.3.4

我们选定红色代表女生，绿色代表男生，画出gpa对hsm的散点图如下：

下面画出各数值变量的散点图矩阵：

下面画出HSM , HSS , HSE的三维散点图如下：

通过上面的散点矩阵图和下面的相关系数矩阵，我们可以看出satm和satv有较强的正相关性，gpa和hsm，hsm和hss，hse，satm有较强的相关性。

1.4

题目要求

1.4.1

我们打开数据集后，双击变量名，在弹出的定义变量的对话框中，改变company这个变量为label变量。

1.4.2

首先画出雇佣人数，销售额，利润的散点图矩阵。

从上面的图中，我们可以找到人均利润较低的企业，如下图所示，General的员工很多，但是他的利润却不高，所以人均创造的利润较低。

利润占销售额比例高的企业，这些企业都是销售量不高，但是利润却是很高的，比如说Intel和Coca-Cola。

利润占销售额比例低的企业，这些企业的销量很高，但是利润不高。如Chrysler这家企业。

1.4.3

对employs和sales两个变量做对数后画出散点图，可以看出做完对数后两个变量呈现正相关。

1.4.4

首先画出各个国家的利润情况，可以看出五个国家的均值是差不多的，美国和英国均值率高，但是美国的方差很大，有的企业的利润特别高，有的企业的亏损又比较严重。

接着画出五个国家的企业的销售量。

可以看出五个国家的销售量的均值是德国是最高的，且方差较小，法国排在第二，且均值也是较小。美国和英国的销售量的均值不高，但是方差很大，特别是美国有销售量特别高的企业。
再结合上面的利润，我们可以看出德国的企业销量的均值高，但是利润不高，可以看出德国的企业的利润率较低，但是美国的企业有的利润率相差很大。

按照rational1（rational1代表利润率，是用利润/销量）进行排序，下面是代码和截图