统计描述一般格式过程proc means 选项列表;by 变量名称(分组变量);class 变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)var 变量名称(待分析的数值变量);run;Proc means 语句后的选项主要用来指定所要计算的统计量,默认情况下,Means过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定
class语句所指定的分组变量用来进行分组,而by语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理
freq语句和weight语句分别引导代表记录出现频数和权重系数的数值变量
var语句引导所要进行分析的所有变量的列表,SAS将对var语句所引导的所有变量分别进行描述性统计分析
summaryproc summary 选项列表;by 变量名称(分组变量);class 变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)output
output语句用来对分析结果输出为数据文件进行控制,其后的选项可有可无,若无则SAS按照默认方式进行
“out=数据集名”用来定义输出数据文件的文件名称,文件名的格式和数据步中数据文件名相同
“统计量关键字=自定义变量名”用来自定义输出数据文件中各种统计量的变量名称,前者是系统定义的(和proc语句后选项中的统计量关键字完全相同),必须正确无误,后者可自行定义
默认状态下输出统计量只有频数、均数、标准差、最大值和最小值,在默认状态不能满足需要时这一选项则是必需的
univariateproc univariate 选项列表;by 变量名称(分组变量);class 变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)weight变量名称(数值变量,用以表示相应记录的权重系数)histogram 变量名称/选项列表var 变量名称(待分析的数值变量);run;univariate过程和以上两个过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在univariate过程中计算(如众数),以及univariate过程中所具有的绘图功能
histogram语句即用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)
tabulateproc tabulate 选项列表;by 变量名称(分组变量);class 变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)<<页变量表达式>,<行变量表达式>,<列变量表达式>>表格选项>var 变量名称(待分析的数值变量,统计量列入相应的表单元格);run;tabulate过程和上述几个过程的格式也基本相似,相同的语句和选项也代表相同的含义
最大的不同也是tabulate过程中最为重要的是table语句,他用来定义表格的具体格式以及表格中所要包括的统计量
gchartproc gchart 选项列表;图形关键词 变量名称/选项列表run;此过程格式简单,复杂的地方在于图形关键字(每个图形关键字对应一种图形类型)所引导的语句,这里是控制图形类型及图形要素的地方,涉及到众多的关键字和选项
gchart过程可以使用的图形关键字及其所绘制的图形类型见下表(表2.1)
表2.1 gchart过程可以使用的图形关键字及其所绘制的图形类型图形关键字绘制的图形类型图形关键字绘制的图形类型block方块图pie圆图hbar水平的条形图pie3d三维圆图hbar3d水平的三维条形图donut环形图vbar竖立的条形图star星形图vbar3d竖立的三维条形图图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的
其后的选项比较重要的有:(1)type=统计量关键字,表示以图形对变量(sumvar所指定的变量)的哪一种统计量进行描述,比如频数(freq)、均数(mean)、总计(sum)、频数百分比(pctn)等;(2)subgroup=变量名(分组变量),指定要进行分组(各组段内再分组)的变量;(3)sumvar=变量名(数值变量),指定要进行统计计算的变量,也就是“type=统计量关键字”选项中统 计量的计算所依据的变量
其它的选项较少用到或系统默认值即可基本满足要求,这里还是少啰嗦,以后用到再说
gplotproc gplot 选项列表;bubble 散点图表达式bubble2 散点图表达式plot散点图表达式plot2散点图表达式run;从gplot过程的一般格式中我们就可看出,此过程只能绘制两种类型的图形,bubble语句指示SAS绘制泡状散点图,plot语句指示SAS绘制点状散点图
bubble2语句和plot2语句指示SAS在同一区域内(bubble2和bubble在同一区域,plot2和plot在同一区域)绘制第二个图形,两者的横坐标相同(同一变量),纵坐标分别位于左右两侧(可以是同一变量,也可以是两个不同的变量)
散点图表达式的一般形式为:(1)bubble和bubble2语句:纵坐标变量名*横坐标变量名=泡尺寸变量名(变量值以泡的大小表示),三者均应为数值变量;(2)plot和plot2语句:纵坐标变量名*横坐标变量名<=n/分类变量名>,此处等号及其后的部分可以省略,此时SAS以默认的散点类型绘制散点图;若等号后为n(n为正整数,是散点类型的编号),SAS则以指定的编号对应的散点类型绘制散点图;若等号后为分类变量名(可为字符型或数值型,为数值型时作为离散型变量处理,每一个值将被当作一个类别),此变量的具体值(或与每个具体值对应的图形)将被作为散点用来绘制散点图
chart过程和plot过程的一般格式及各选项使用方法分别与gchart过程和gplot过程是基本相同的,不同之处仅在于后两者中涉及到有关三维和图形元素(颜色等)的语句和选项在前两者中是无效的
例如vbar3d语句在chart过程中无效,bubble语句在plot过程中无效
其余的语句和选项使用方法完全相同,所以在掌握了gchart过程和gplot过程后,chart过程和plot过程你会不学自通
以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。