SAS教程[1]–第一章解答|《统计软件教程》(李东风版)

  • A+
所属分类:SAS基础
摘要在这个新的教程中,我会结合《统计软件教程》(李东风版)这本数给出教程,并给出这本书第1到第5章的课后习题答案。希望大家能有所收获。这里给出的是《统计软件教程》(李东风版)这本书第一章的答案。

今天我们就来看一下《统计软件教程》(李东风版)这本书的第一章的课后习题的解答。

1.1

题目要求

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.1.1

认识界面

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

打开界面后可以看到输出框编辑框日志。其中我们在编辑框输入代码,会在输出框中看到输出的结果,在日志里可以看是否会报错。在左边的结果中可以看到刚刚保存的数据集。

1.1.2

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

首先在解决方案中选择分析->交互式数据分析

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

在弹出的数据框中选择新建。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

再点击帮助->创建样本即可。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.1.3

我们可以在sasuer中看到我们刚刚生成的数据集,如下图所示。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.1.4

代码

  1. title'95级1班学生成绩排名';
  2. data c9501;
  3. input name$ sex $ math chinese;
  4. avg = math*0.5 + chinese/120*100*0.5;
  5. cards;
  6. 李明 男 92 98
  7. 张红艺 女 89 106
  8. 王思明 男 86 90
  9. 张聪 男 98 109
  10. 刘颖 女 80 110
  11. ;
  12. run;
  13. proc print data = c9501;
  14. run;
  15. proc sort data=c9501;
  16. by descending avg;
  17. run;
  18. proc print data=c9501;
  19. run;

输出效果

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.1.5

在INSIGHT窗口输入C9501的数据结果如下:

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

1.2

题目要求

SAS教程[1]--第一章解答|《统计软件教程》(李东风版) SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

从表格可以看出,不能拒绝正态分布的原假设。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

从上面的表格可以看出正态分布的大致情况,和其均值的90%的置信区间,为(149.217 , 167.0981)

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

从上面的图形和表格可以大致看出其直方图和标准正态分布的比较,和正态分布的参数的大致情况,如均值为158,Sigma为22.5和众数158。

 

1.3

题目要求

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.3.1

我们依次做出各个变量的直方图,通过直方图查看变量的分布形状。并通过箱线图查看其均值,分散程度,极端值。

首先我们看变量gpa的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

接着我们看变量hsm的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

接着我们看变量hss的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

接着我们看变量hse的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

接着我们看变量satm的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

接着我们看变量satv的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

最后我们看变量sex的直方图和箱线图。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

1.3.2

为了研究gpa的分布,我们首先画出其直方图,并于正态分布的概率密度曲线做比较。查看其累计分布和做正态性检验。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版) SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

通过正态性检验,我们发现p-值<0.05,故我们拒绝原假设,认为gpa的数据不符合正态分布。
但是我们也可以发现gpa特别高的很少,特别低的也很少,大多还是集中在4.5分。

1.3.3

使用sort ... by ...函数对gpa数据进行排序,默认是从低到高排序,我是加上descending后可以从高到低排序。代码和做出的结果如下:

  1. Data SAS2_11;
  2. Set SASuser.GPA;
  3. run;
  4. Proc sort data=SAS2_11;
  5. by sex descending gpa;
  6. Run;
  7. Proc print data=SAS2_11;
  8. Run;
SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.3.4

我们选定红色代表女生,绿色代表男生,画出gpa对hsm的散点图如下:

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

下面画出各数值变量的散点图矩阵:

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

下面画出HSM , HSS , HSE的三维散点图如下:

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

通过上面的散点矩阵图和下面的相关系数矩阵,我们可以看出satm和satv有较强的正相关性,gpa和hsm,hsm和hss,hse,satm有较强的相关性。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

1.4

题目要求

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.4.1

我们打开数据集后,双击变量名,在弹出的定义变量的对话框中,改变company这个变量为label变量。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.4.2

首先画出雇佣人数,销售额,利润的散点图矩阵。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

从上面的图中,我们可以找到人均利润较低的企业,如下图所示,General的员工很多,但是他的利润却不高,所以人均创造的利润较低。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

利润占销售额比例高的企业,这些企业都是销售量不高,但是利润却是很高的,比如说Intel和Coca-Cola。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

利润占销售额比例低的企业,这些企业的销量很高,但是利润不高。如Chrysler这家企业。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

1.4.3

对employs和sales两个变量做对数后画出散点图,可以看出做完对数后两个变量呈现正相关。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.4.4

首先画出各个国家的利润情况,可以看出五个国家的均值是差不多的,美国和英国均值率高,但是美国的方差很大,有的企业的利润特别高,有的企业的亏损又比较严重。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

接着画出五个国家的企业的销售量。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

可以看出五个国家的销售量的均值是德国是最高的,且方差较小,法国排在第二,且均值也是较小。美国和英国的销售量的均值不高,但是方差很大,特别是美国有销售量特别高的企业。
再结合上面的利润,我们可以看出德国的企业销量的均值高,但是利润不高,可以看出德国的企业的利润率较低,但是美国的企业有的利润率相差很大。

按照rational1(rational1代表利润率,是用利润/销量)进行排序,下面是代码和截图

  1. Data SAS2_4;
  2. Set Sasuser.Business;
  3. rational1 = profits/sales;
  4. rational2 = profits/employs;
  5. run;
  6. Proc sort data=SAS2_4; /*升序排序*/
  7. by descending NATION decending INDUSTRY descending rational1;
  8. Run;
  9. Proc sort data=SAS2_4; /×降序排序×/
  10. by NATION  INDUSTRY rational1;
  11. Run;
  12. Proc print data=SAS2_4 ;
  13. Run;
SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

按照rational2(rational2代表劳动率,是用利润/员工人数)进行排序。下面是代码。

  1. Data SAS2_4;
  2. Set Sasuser.Business;
  3. rational1 = profits/sales;
  4. rational2 = profits/employs;
  5. run;
  6. Proc sort data=SAS2_4; /*升序排序*/
  7. by descending NATION decending INDUSTRY descending rational2;
  8. Run;
  9. Proc sort data=SAS2_4; /×降序排序×/
  10. by NATION  INDUSTRY rational2;
  11. Run;
  12. Proc print data=SAS2_4 ;
  13. Run;

 

1.5

题目要求

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.5.1

在INSIGHT这打开数据集后,双击变量名,将GROUP的类型改为名义型。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.5.2

通过group语句将每一组内按年龄从高到低排序。排序的代码和结果如下所示。

  1. Title "fitness";
  2. Data SAS2_4;
  3. Set Sasuser.fitness;
  4. run;
  5. Proc sort data=SAS2_4;
  6. by group age;
  7. Run;
  8. Proc print data=SAS2_4 ;
  9. Run;
SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.5.3

为了求出各个变量的分布情况,我们画出各个变量的柱状图,如下所示:

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.5.4

我们做出三个组年龄并排的盒形图,可以看出三个组的年龄在递增的,第0组的年龄在40--45岁,第二组的年龄在45--50岁,第三组的年龄在50--55岁。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

1.5.5

我们做出三个的心率的盒形图,如下图所示,可以看到第一组的心率要高于其他两组,第二组的心率一直是最低的,第三组的心率要会比第二组高,结合上一问三组的年龄,我们可以得到在45--50岁这个阶段的心率较慢,之前和之后的心率都会较快。

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

 

1.5.6

在INSIGHT中画出OXYGEN与其他变量的散点图,画出的结果如下图所示:

SAS教程[1]--第一章解答|《统计软件教程》(李东风版)

从图中我们可以看出oxygenruntime有较强的负相关性。

  • 微信公众号
  • 关注微信公众号
  • weinxin
  • QQ群
  • 我们的QQ群号
  • weinxin
王 茂南

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: