今天我们就来看一下《统计软件教程》(李东风版)这本书的第一章的课后习题的解答。
文章目录(Table of Contents)
1.1
题目要求
1.1.1
认识界面
打开界面后可以看到输出框,编辑框和日志。其中我们在编辑框输入代码,会在输出框中看到输出的结果,在日志里可以看是否会报错。在左边的结果中可以看到刚刚保存的数据集。
1.1.2
首先在解决方案中选择分析->交互式数据分析。
在弹出的数据框中选择新建。
再点击帮助->创建样本即可。
1.1.3
我们可以在sasuer中看到我们刚刚生成的数据集,如下图所示。
1.1.4
代码
- title'95级1班学生成绩排名';
- data c9501;
- input name$ sex $ math chinese;
- avg = math*0.5 + chinese/120*100*0.5;
- cards;
- 李明 男 92 98
- 张红艺 女 89 106
- 王思明 男 86 90
- 张聪 男 98 109
- 刘颖 女 80 110
- ;
- run;
- proc print data = c9501;
- run;
- proc sort data=c9501;
- by descending avg;
- run;
- proc print data=c9501;
- run;
输出效果
1.1.5
在INSIGHT窗口输入C9501的数据结果如下:
1.2
题目要求
从表格可以看出,不能拒绝正态分布的原假设。
从上面的表格可以看出正态分布的大致情况,和其均值的90%的置信区间,为(149.217 , 167.0981)
从上面的图形和表格可以大致看出其直方图和标准正态分布的比较,和正态分布的参数的大致情况,如均值为158,Sigma为22.5和众数158。
1.3
题目要求
1.3.1
我们依次做出各个变量的直方图,通过直方图查看变量的分布形状。并通过箱线图查看其均值,分散程度,极端值。
首先我们看变量gpa的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。
接着我们看变量hsm的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。
接着我们看变量hss的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。
接着我们看变量hse的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。
接着我们看变量satm的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。
接着我们看变量satv的直方图和箱线图,并给出矩统计量,其中包含均值,标准差,偏差等。
最后我们看变量sex的直方图和箱线图。
1.3.2
为了研究gpa的分布,我们首先画出其直方图,并于正态分布的概率密度曲线做比较。查看其累计分布和做正态性检验。
通过正态性检验,我们发现p-值<0.05,故我们拒绝原假设,认为gpa的数据不符合正态分布。
但是我们也可以发现gpa特别高的很少,特别低的也很少,大多还是集中在4.5分。
1.3.3
使用sort ... by ...函数对gpa数据进行排序,默认是从低到高排序,我是加上descending后可以从高到低排序。代码和做出的结果如下:
- Data SAS2_11;
- Set SASuser.GPA;
- run;
- Proc sort data=SAS2_11;
- by sex descending gpa;
- Run;
- Proc print data=SAS2_11;
- Run;
1.3.4
我们选定红色代表女生,绿色代表男生,画出gpa对hsm的散点图如下:
下面画出各数值变量的散点图矩阵:
下面画出HSM , HSS , HSE的三维散点图如下:
通过上面的散点矩阵图和下面的相关系数矩阵,我们可以看出satm和satv有较强的正相关性,gpa和hsm,hsm和hss,hse,satm有较强的相关性。
1.4
题目要求
1.4.1
我们打开数据集后,双击变量名,在弹出的定义变量的对话框中,改变company这个变量为label变量。
1.4.2
首先画出雇佣人数,销售额,利润的散点图矩阵。
从上面的图中,我们可以找到人均利润较低的企业,如下图所示,General的员工很多,但是他的利润却不高,所以人均创造的利润较低。
利润占销售额比例高的企业,这些企业都是销售量不高,但是利润却是很高的,比如说Intel和Coca-Cola。
利润占销售额比例低的企业,这些企业的销量很高,但是利润不高。如Chrysler这家企业。
1.4.3
对employs和sales两个变量做对数后画出散点图,可以看出做完对数后两个变量呈现正相关。
1.4.4
首先画出各个国家的利润情况,可以看出五个国家的均值是差不多的,美国和英国均值率高,但是美国的方差很大,有的企业的利润特别高,有的企业的亏损又比较严重。
接着画出五个国家的企业的销售量。
可以看出五个国家的销售量的均值是德国是最高的,且方差较小,法国排在第二,且均值也是较小。美国和英国的销售量的均值不高,但是方差很大,特别是美国有销售量特别高的企业。
再结合上面的利润,我们可以看出德国的企业销量的均值高,但是利润不高,可以看出德国的企业的利润率较低,但是美国的企业有的利润率相差很大。
按照rational1(rational1代表利润率,是用利润/销量)进行排序,下面是代码和截图
- Data SAS2_4;
- Set Sasuser.Business;
- rational1 = profits/sales;
- rational2 = profits/employs;
- run;
- Proc sort data=SAS2_4; /*升序排序*/
- by descending NATION decending INDUSTRY descending rational1;
- Run;
- Proc sort data=SAS2_4; /×降序排序×/
- by NATION INDUSTRY rational1;
- Run;
- Proc print data=SAS2_4 ;
- Run;
按照rational2(rational2代表劳动率,是用利润/员工人数)进行排序。下面是代码。
- Data SAS2_4;
- Set Sasuser.Business;
- rational1 = profits/sales;
- rational2 = profits/employs;
- run;
- Proc sort data=SAS2_4; /*升序排序*/
- by descending NATION decending INDUSTRY descending rational2;
- Run;
- Proc sort data=SAS2_4; /×降序排序×/
- by NATION INDUSTRY rational2;
- Run;
- Proc print data=SAS2_4 ;
- Run;
1.5
题目要求
1.5.1
在INSIGHT这打开数据集后,双击变量名,将GROUP的类型改为名义型。
1.5.2
通过group语句将每一组内按年龄从高到低排序。排序的代码和结果如下所示。
- Title "fitness";
- Data SAS2_4;
- Set Sasuser.fitness;
- run;
- Proc sort data=SAS2_4;
- by group age;
- Run;
- Proc print data=SAS2_4 ;
- Run;
1.5.3
为了求出各个变量的分布情况,我们画出各个变量的柱状图,如下所示:
1.5.4
我们做出三个组年龄并排的盒形图,可以看出三个组的年龄在递增的,第0组的年龄在40--45岁,第二组的年龄在45--50岁,第三组的年龄在50--55岁。
1.5.5
我们做出三个的心率的盒形图,如下图所示,可以看到第一组的心率要高于其他两组,第二组的心率一直是最低的,第三组的心率要会比第二组高,结合上一问三组的年龄,我们可以得到在45--50岁这个阶段的心率较慢,之前和之后的心率都会较快。
1.5.6
在INSIGHT中画出OXYGEN与其他变量的散点图,画出的结果如下图所示:
从图中我们可以看出oxygen和runtime有较强的负相关性。
- 微信公众号
- 关注微信公众号
- QQ群
- 我们的QQ群号
评论