目录
实验一 描述性分析 实验二 正态总体的均值检验 实验三 非参数检验 实验四 方差分析 实验五 回归分析 实验六 判别、聚类分析 实验七 主成分分析 实验八 因子分析
实验一 描述性分析
【实验目的】
1. 掌握数字特征的计算(A); 2. 掌握相关矩阵计算(A)。
【实验原理】
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
要对数据进行分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。对于数据的数字特征,要分析数据的集中位置、分散程度。数据的分布是正态的还是偏态等。对于多元数据,还要分析多元数据的各个分量之间的相关性等。
.页脚
.
【实验项目设计】
1. 给定一组单变量数据,分组计算均值、方差、Q1、Q3、偏度、峰度。 2. 给定一组多变量数据,计算相关矩阵。
【实验内容】
一、单样本的数字特征计算
(习题1.4) 从某商店的营业日中随机抽取12天,得日营业额数据为(单位:万元):
12.5, 17.2, 9.1, 25.4, 31.2, 20, 18.9, 22.8, 21.1, 17.8, 25.1, 27.7
试求样本均值、样本方差、样本变异系数、样本中位数、上样本四分位数、下样本四分位数、样本四分位数间距和极差。
1. 建数据集 Data d4; Input x @@; Cards;
12.5 17.2 9.1 25.4 31.2 20 18.9 22.8 21.1 17.8 25.1 27.7 ;
Run;
2. 使用“SAS/ 分析家”菜单 (1)打开“分析家”界面。
选择SAS界面的级联菜单:“解决方案”➢“分析”➢“分析家”。
(2)调出数据文件 Work.D4 。
在界面的空白处,右键弹出菜单,选择级联菜单:“文件”➢“按SAS名称打开”。依次选择逻辑库和文件对象,分别为“Work”、“D4”,单击“确定”按钮。
.页脚
.
(3)确定分析方法。
选择界面上的级联菜单:“统计”➢“描述性统计”➢“分布”
(4)输送变量。
首先选中变量“x”,然后单击“Analyst”按钮。即完成变量的输送,确定变量“x”作为分析变量。单击“OK”。
(5)得到输出结果
.页脚
.
上述使用“分析家”的调用过程等价于程序调用univariate过程: proc univariate data=d4; Var x; Run;
3. 解答
.页脚
.
样本均值 mean = 样本方差 Variance =
样本变异系数 Coeff Variation = 样本上四分位数 75% Q3 =
样本中位数 Median = 样本下四分位数25% Q1 = 极差Range =
样本四分位数间距 Interquartile Range =
二、相关矩阵计算
(例 3.2.3) 今对31个人进行人体测试,考察或测试的七个指标是:年龄(x1)、体重(x2)、肺活量(x3)、1.5英里跑的时间(x4)、休息时的脉搏(x5)、跑步时的脉搏(x6)和跑步时记录的最大脉搏(x7)。数据列于表3.2.1。现欲对这些指标作一些相关分析。
1. 对于给定EXCEL数据文件,导入数据建数据集 e323.sas7bdat 2. 使用SAS/INSIGHT菜单 3. 输出 变量x1x2x3x4x5x6x7 x1x2x3x4x5x6x7N 31 31 31 31 31 31 31x1 27.1591 -10.1365 -8.4563 1.3647 -6.1194 -18.0516 -20.6753均值 47.6774 77.4445 47.3758 10.5861 53.7419 169.6452 173.7742x2 -10.1365 69.3650 -7.2211 1.6583 1.5682 15.4987 19.0337单变量统计量标准偏差最小值最大值 5.2114 38.0000 57.0000 8.3286 59.0800 91.6300 5.3272 37.3880 60.0550 1.3874 8.1700 14.0300 8.2944 40.0000 76.0000 10.2520 146.0000 186.0000 9.1641 155.0000 192.0000协方差矩阵, 自由度 = 30x3x4x5 -8.4563 1.3647 -6.1194 -7.2211 1.6583 1.5682 28.3794 -6.3725 -15.3064 -6.3725 1.9249 4.6093 -15.3064 4.6093 68.7978 -21.7352 4.4612 27.0387 -11.5575 2.8748 19.5731 x6 -18.0516 15.4987 -21.7352 4.4612 27.0387 105.1032 87.3505x7 -20.6753 19.0337 -11.5575 2.8748 19.5731 87.3505 83.9806 x1x2x3x4x5x6x7x1 1.0000 -0.2335 -0.3046 0.1887 -0.1416 -0.3379 -0.4329x2 -0.2335 1.0000 -0.1628 0.1435 0.0227 0.1815 0.2494相关系数矩阵x3x4 -0.3046 0.1887 -0.1628 0.1435 1.0000 -0.8622 -0.8622 1.0000 -0.3464 0.4005 -0.3980 0.3136 -0.2367 0.2261x5 -0.1416 0.0227 -0.3464 0.4005 1.0000 0.3180 0.2575x6 -0.3379 0.1815 -0.3980 0.3136 0.3180 1.0000 0.9298x7 -0.4329 0.2494 -0.2367 0.2261 0.2575 0.9298 1.0000 x4x5x6x7.页脚 偏协方差矩阵, 自由度 = 27x4x5x6 0.5350 1.0135 -1.0662 1.0135 61.0655 4.8906 -1.0662 4.8906 71.0620 -0.2534 3.7683 60.7096x7 -0.2534 3.7683 60.7096 61.5501 .
x4x5x6x7x4 1.0000 0.1773 -0.1729 -0.0442 偏相关系数矩阵x5x6 0.1773 -0.1729 1.0000 0.0742 0.0742 1.0000 0.0615 0.9180x7 -0.0442 0.0615 0.9180 1.0000 实验二 正态总体的均值检验
【实验目的】
1. 掌握单正态总体样本的均值检验(B);
2. 掌握两独立组样本(服从正态总体)进行均值比较(A);
3. 掌握两对照组样本(服从正态总体)进行均值比较(A); 4. 了解两组样本均值差的置信区间计算(C)。
【实验原理】
1. 单样本总体均值的t检验
H0:0统计量:tx0H0:0t~tn1
sn拒绝域:tt2n12. 两独立组样本总体的方差比较
H0:12s12H0:12统计量:F2F~Fn11,n21s2拒绝域:FF2n11,n21,FF12n11,n21,
【实验项目设计】
1. 单个正态总体的均值检验;
2. 两独立组样本(服从正态总体)进行均值比较检验; 3. 两对照组样本(服从正态总体)进行均值比较检验。
【实验内容】
一、单个正态总体的均值检验
(习题1.4) 从某商店的营业日中随机抽取12天,得日营业额数据为(单位:万元):
.页脚
.
12.5, 17.2, 9.1, 25.4, 31.2, 20, 18.9, 22.8, 21.1, 17.8, 25.1, 27.7
试检验: μ0 = 10 。
1. 建数据集 Data d4; Input x @@; Cards;
12.5 17.2 9.1 25.4 31.2 20 18.9 22.8 21.1 17.8 25.1 27.7 ;
Run;
2. 使用“SAS/ 分析家”菜单 (1)打开“分析家”界面。 (2)调出数据文件 Work.D4 。 (3)确定分析方法。
选择界面上的级联菜单:“统计”➢“假设检验”➢“均值的单样本T检验”
(4)输送变量。
确定变量“x”为分析变量。 (5)得到输出结果
.页脚
.
3. 解答
H0: μ0=10 H1: μ0≠10 检验方法:t检验 统计量取值: t=____ 检验p值=_______ 结论:拒绝/接受H0.
二、 两独立组样本(服从正态总体)进行均值比较
(习题1.22) 为比较甲、乙两种安眠药的疗效,将20名患者分成两组,每组10人,假定服药后延长的睡眠时间都近似服从正态分布且方差相等,测得其数据如下:
1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4 0.7, -1.6, -0.2, -1.2, -0.1, 3.4, 3.7, 0.8, 0, 2
试问在显著性水平a=0.05下检验两种安眠药的疗效有无显著性差异,p值是多少?
1. 建数据集
前面的“分析家”界面不要关闭,切换到程序编辑窗口,输入程序。 Data d22; Input x y; Cards; 1.9 0.7 0.8 -1.6 1.1 -0.2 0.1 -1.2 -0.1 -0.1 4.4 3.4 5.5 3.7 1.6 0.8 4.6 0
3.4 2 ; Run;
2. 使用“SAS/分析家”菜单
(1)回到“分析家”界面,调出数据文件 work.d22 (2)确定分析方法。
选择级联菜单:“统计”➢“假设检验”➢“均值的双样本T检验”
.页脚
.
(3)设置数据集work.d22中,各样本分组数据对应的变量个数:“Two variables” 。
(4)输送变量。
将变量“x”输送给 “group1”,“y”输送给 “group2”,单击“OK”
(5)输出结果如下
.页脚
.
(6)涉及到两独立组的方差,继续检验两组方差是否相等。
回到“分析家”界面上,选择级联菜单“统计”➢“假设检验”➢“方差的双样本T检验”
(7)输送变量。
将变量“x”输送给 “group1”,“y”输送给 “group2”,单击“OK”。 (8)输出结果如下
3. 解答
H0: σ1=σ2 H1: σ1≠σ2 检验方法:F检验
.页脚
.
统计量取值:F=____ 检验p值=_______
结论:拒绝/接受H0.两独立组的方差是/否相等。
H0: μ1=μ2 H1: μ1≠μ2 检验方法:t检验 统计量取值: t=____ 检验p值=_______
结论:拒绝/接受H0. 两种安眠药的疗效有/无显著性差异
三、两对照组样本(服从正态总体)进行均值比较
(习题1.24) 甲、乙两种稻种分别播种在10块试验田中,每块试验田甲、乙稻种各种一半。假设同一块田中两种作物的产量之差服从正态分布。现获10块田的成对产量如下表所示(单位:公斤),试问两种稻种产量有无显著性差异(a=0.05),p值是多少?
1 2 3 4 5 6 7 8 9 10 甲种 140 137 136 140 145 148 140 135 144 141 乙种 135 138 125 140 128 131 130 140 131 125 1. 建数据集 Data d24;
Input x y @@ ; Cards;
140 135 137 138 136 125 140 140 145 128 148 131 140 130 135 140 144 131 141 125 ; Run;
2. 使用“SAS/分析家”菜单
(1)回到“分析家”界面,调出数据文件 work.d24 (2)确定分析方法。
选择级联菜单:“统计”➢“假设检验”➢“均值的双样本成对T检验”
.页脚
.
(3)输送变量。
设置各分组数据对应的变量个数:“Two variables”,并输送变量“x”“y”,单击“OK”,得到输出结果如下:
3. 解答
H0: μ1=μ2 H1: μ1≠μ2 检验方法:t检验 统计量取值:t=____ 检验p值=_______
结论:拒绝/接受H0,两种稻种产量有/无显著性差异.
实验三 非参数检验
【实验目的】
1. 掌握卡方检验(A);
2. 熟悉符合检验、符号秩和检验、秩和检验。
【实验原理】
.页脚
.
非参数统计是统计分析的重要组成部分。可是与之很不相称的是它的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,使用SAS的“分析家”系统可以方便地进行界面操作。
【实验项目设计】
1. 对列联表,检验行变量与列变量的关联性; 2. 给定一组未知总体的样本数据,检验μ=μ0;
3. 给定两组未知总体的样本数据,检验μ1=μ2。
【实验内容】
一、对列联表,检验行变量与列变量的关联性
(习题4.7) 下表为某药治疗感冒效果的3x3列表。
疗效\\年龄
显著 一般 较差 合计
儿童 58 28 23 109
成年 38 44 18 100
老年 32 45 14 91
合计 128 117 55 300
试问:疗效与年龄是否关联(a=0.05)?
1. 建数据集
Data d0407;
Do effect='显著', '一般','较差';
Do age='儿童','成年','老年';
input num @@; output;
end;
end; Cards; 58 38 32 28 44 45 23 18 14 ; Run;
.页脚
.
2. 使用“SAS/ 分析家”菜单 (6)打开“分析家”界面。
(7)调出数据文件 Work.D0407。 (8)确定分析方法。
选择界面上的级联菜单:“统计”➢“表分析”
得到列联表的空白界面。
(9)输送变量。
选中变量“effect”,单击“Row”按钮;选中变量“age”,单击“Column”按钮;选中变量“num”,单击“Cell Counts”按钮。完成变量输送。显示如下。
(10)选择附加的统计方法。
在列联表分析(Table Analysis)界面的右边下角,点击“statistics”按钮,打开选项设置页。勾选“chi-square statistics”。如图所示。单击“OK”按钮。
.页脚
.
值得一提的是,卡方检验默认使用近似计算,目的是为了节省时间。当然也可以勾选中间的“Exact test”选项卡,来指定精确检验,只是某些时候的运行时间无法控制。
(11)得到输出结果
3. 解答
H0:疗效与年龄独立。
检验统计量及其分布:2:24
.页脚
.
统计量= 检验p值= 结论:
二、对未知总体的一组样本数据,进行均值的非参数检验 (H0:μ=μ0)
(习题 4.9 ) 从某企业中随机抽取12名职工,调查他们的年抽入,数据如下(单位:万元):
4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52
试用符号检验对该企业职工年收入的中位数是否显著超过了5万元进行符号检验(a=0.05)。
1. 建数据集
前面的“分析家”界面不要关闭,切换到程序窗口,运行以下程序。 Data d0409; input income @@; d = income - 5; cards; 5.42 4.81 ;
run;
2. 使用“SAS/ 分析家”菜单
(1)在未关闭的“分析家”界面中,调出数据文件 Work.D0409。 (2)打开对应于univariate程序功能的菜单分析界面。 选择界面上的级联菜单:“统计”➢“描述性统计”➢“分布”
(3)输送差值变量“d”。选中差值变量“d”,单击Analysis框。单击“OK”。 (4)得到输出结果。
5.65 4.37
5.64 5.82
5.13 6.31
4.69 4.78
5.13 5.52
5.42 5.65 5.64
5.13
.页脚
.
3. 解答
H0:m=5 H1:m>5 ①符号检验
检验统计量及其分布:s:b12,0.5
统计量 s+= 2+E(S+)=8
检验p值= 0.3877 / 2=0.194 (单边检验,故概率除以2) 结论:接受H0。
②符号秩检验(前提:假定总体的分布式对称的)
检验统计量T代表差值变量d中取值为正的数据项秩总和。 统计量 T+= 19 + E(T+) = 19 + 12(12+1)/4 = 19 + 39 =58, 检验p值= 0.1455/2=0.073(单边检验,故概率除以2) 结论:接受H0。
三、两组未知总体的样本数据,非参数检验总体均值
(习题4.12) 在甲、乙两台同型梳棉机上,进行纤维转移率试验,除机台外其他工艺条件都相同,经试验得两个容量不同的纤维转移率样本数据如下表: 甲 乙
8.635 7.342 9.071 7.436 9.231 8.03 8.797 8.946 9.87 9.131 10.325 6.823 8.965 8.696 8.345 试用秩和检验,对纤维转移率而言,这两台机器是否存在显著的机台差异(a=0.05).
1. 建数据集
前面的“分析家”界面不要关闭,切换到程序窗口,运行以下程序。 data d04012; input x class $; cards; 8.635 9.071 9.231 8.797
.页脚
甲 甲 甲 甲
.
9.87 10.325 7.342 7.436 8.03 8.946 9.131 6.823 8.965 8.696 8.345 ;
甲 甲 乙 乙 乙 乙 乙 乙 乙 乙 乙
run;
2. 运行npar1way 过程
proc npar1way data=d04012 wilcoxon; class c; var x;
run;
3. 得到输出结果
4. 解答
H0:两台机器没有显著的差异(即μ1=μ2) H1:两台机器存在显著的差异(即μ1≠μ2)
T=67,(统计量 T代表甲台机器的样本数据在混合数据中的秩和),
检验p值=0.0292 (双边检验,故选用z检验的 “Two – sided Pr > |Z| ”), 拒绝H0,
认为两台机器存在显著差异。
.页脚
.
【思考题】
问题1说出非参数检验和参数检验的区别。
问题2说出非参数检验中,都有哪几类问题有需要以引入差值变量d。
实验四 方差分析
【实验目的】
3. 掌握单因素方差分析、多重比较(A); 4. 掌握两因素方差分析算(A)。
【实验原理】
方差分析(analysis of variance,简称ANOVA)是用来对多个总体的均值作比较检验的统计方法。在进行单因素方差分析时,如果检验拒绝了原假设,则我们有时还需进一步检验到底哪些均值之间存在差异,把同时比较任意两个水平下的总体均值有无显著差异的问题称为多重比较问题。常用的有费希尔LSD法和邦弗伦尼法。
【实验项目设计】
1. 进行单变量方差分析;
2. 考虑交互作用进行双因素方差分析; 3. 不考虑交互作用进行双因素方差分析。 【实验内容】
一、单因素方差分析&多重比较
(例5.1.1)为检验甲、乙、丙三种型号的机器混合一批原料所需平均时间是否相同,某管理人员得到了混合原料所需时间的如表5.1.1 所示的数据。
机器
甲
.页脚
所 需 时 间
21 25 22 26 23 22
.
乙 丙
27 23 25 24 27 26 19 22 21 25 21 20
(例5.2.1) 在例5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三个水平下的总体分布皆为正
态,且方差相等。试给出方差分析表(参考教材124页)并进行多重比较。
1. 建数据集
/* 引入组别变量a和数值变量x,建数据集c0501 */ Data c0501; input x @@;
if _n_ < 7 then a=’甲’; else if _n_ < 13 then a=’乙’; else a=’丙’; cards;
21 25 22 26 23 22 27 23 25 24 27 26 19 22 21 25 21 20 ;
run; 2. 使用“SAS/ 分析家”菜单
(1)打开“分析家”界面,调出数据文件 Work.C0501。 (2)打开单因素方差分析界面。
/* SAS\\ANALYST菜单:“统计”➢“方差分析(A)”➢“单向方差分析(O)” */ (3)输送变量。
(4)得到输出结果。
验证:SST = SSA + SSE
.页脚
.
3. 进行多重比较
(1)打开单因素方差分析界面
/* SAS\\ANALYST菜单:“统计”➢“方差分析(A)”➢“单向方差分析(O)”*/
(2)单击界面上的“Means”按钮
单击选项卡“Comparison Method”右侧的黑色下箭头,弹出的列表中选择合适的方法。
(3)使用Fisher’s LSD法的多重比较结果(参考教材126页)
.页脚
.
(4)使用邦弗伦尼法的多重比较结果(参考教材127页)
二、考虑交互作用的双因素方差分析
(例5.3.1) 为研究影响合成纤维抗断强度的因素,表5.3.1记录了三位操作员用
同一批产品的纤维在四台生产机器上试验的数据。
机器 操作员 1 2 3
109,110 110,112 116,114
110,115 110,111 112,115
108,109 111,109 114,119
110,108 114,112 120,117
甲
乙
丙
丁
(例5.3.2) 在例5.3.1中,a=3,b=4,r=2,并假定在12个水平组合下的总体分布
皆为正态,且方差相等。试给出方差分析表(参考教材136页)
.页脚
.
1. 建数据集
/* 引入因素变量A、B和数值变量x,建数据集c0502 */
Data c0502; Do A='p1','p2','p3'; Do B='甲','乙','丙','丁'; Do r=1,2;
Input x @@; Output ;
End;end;end; cards;
109 110 110 115 108 109 110 108 110 112 110 111 111 109 114 112 116 114 112 115 114 119 120 117 ; Run;
2.
使用“SAS/ 分析家”菜单
(1)打开“分析家”界面,调出数据文件 Work.C0502。 (2)打开双因素方差分析界面。
/* SAS\\ANALYST菜单:“统计”➢“方差分析(A)”➢“因子方差分析(O)” */ (3)输送双因素变量A、B和数值变量x。保留窗口。
(4)输送交互因素A×B。
单击Model按钮,弹出如下页面。同时选中左侧变量A、B,单击cross按钮,完成交互因素的添加。单击“OK”按钮。
.页脚
.
(5)得到输出结果。
三、不考虑交互作用的双因素方差分析
(例5.3.3)为了考察压强与温度对某种粘合剂抗剪强度的影响,选定压强(单位:
10−5牛顿/毫米2)的四个水平和温度(单位:℃)的三个水平作试验,每个水平组合下作一次试验,结果见表5.3.6。假定这两个因素无交互作用,且在各水平组合下粘合剂的抗剪强度均服从方差相同的正态分布,试检验两个因素的效应是否显著(α=0.05)。
温度(B) 130 140 150 yi∙ .页脚
.
压强(A) 60 65 70 75 9.60 9.69 8.43 9.98 37.7 11.28 10.10 11.01 10.44 42.83 9.00 9.57 9.03 9.80 37.4 29.88 29.36 28.47 30.22 y∙j y∙∙=117.93
试给出方差分析表(参考教材136页) 1. 建数据集
/* 引入因素变量A、B和数值变量x,建数据集c0503 */
Data c0503; Do A=60,65,70,75; Do B=130,140,150;
Input x @@; Output ;
End;end; cards; 9.60 11.28 9.69 10.10 8.43 11.01 9.98 10.44 ; Run;
9.00 9.57 9.03 9.80
2. 使用“SAS/ 分析家”菜单
同上,只是省去添加交互因素这一步骤。
实验五 回归分析
【实验目的】
掌握多元线性回归方程的拟合、检验(A)。
【实验原理】
.页脚
.
客观世界中事物之间的关系是各种各样的。从定量的角度看,主要有两种:一是确定性关系,如重力加速度,即自由落体的距离与时间:S=0.5gt2;另一类是不确定性关系,即相关关系。
由于事物的变化常常受多种因素的影响,导致了事物变化的不确定性。人们常用相关系数来描述事物之间的这种不确定性程度。
但对于如何通过一个事物的值去估计和预测另一个事物的发展变化,相关系数却无能为力。但是,通过大量的实际调查,可以总结出它们之间的关系,回归分析即是对这种关系的描述。
“回归”一词最早由英国统计学家高尔顿(Francis Galton)在19世纪末期研究孩子的身高和他们父母身高关系时提出。
研究发现,孩子的身高总是趋于他们父母身高的平均值。孩子的身高,比身材矮的父母要高,比身材高的父母要矮,这种趋于中间值的趋势称作“回归效应”,而他提出的这种研究两个数值变量关系的方法称作回归分析。
回归分析是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的变化去解释另一变量的变化。目的在于对相关随机变量进行估计、预测和控制,确定变这些量之间数量关系的可能形式,并用一个数学模型来表示。
.页脚
.
回归分析中,自变量(independent variable)也称为解释变量,给定的或可以控制的、用来解释、预测因变量的变量;因变量(dependent variable)也称为响应变量,由自变量来解释其变化的变量。
只有一个自变量的线性回归叫一元线性回归,也叫简单回归。
与方差分析不同,在回归分析中,“元”是指自变量,而不是指因变量。
【实验项目设计】
1. 给定样本数据,进行一元线性回归拟合、检验;
2. 给定样本数据,进行多元线性回归拟合、检验。 3. 带虚拟变量(哑元变量)的线性回归。 【实验内容】
一、一元回归分析
(习题5.2) 关于汽车轮胎的等级和承载能力的一个样本统计资料如下:
序号 1 2 3 4 5 6 7 8 9 承载能力 y 853 1047 1135 1201 1235 1356 1389 1433 2039 轮胎等级 x 75
(1) 用汽车轮胎的等级作自变量,画出这些数据的散点图; (2) 利用最小二乘法,求出估计回归函数; 1. 建数据集
82 85 87 88 91 92 93 105 Data d0604;
.页脚
.
Input y x1 @@; Cards; 补充 ; Run;
2. 使用“SAS/ 分析家”菜单
(12)打开“分析家”界面。调出数据文件 Work.D0602 。 (13)绘制散点图。 单击工具栏“散点图”图标
弹出散点图页面:
(2.1)输送变量。
(2.2)设置星号为散点显示符号。 单击“display”按钮,弹出页面如下,
.页脚
.
单击黑色下箭头,弹出列表中单击“star”。单击“OK”返回。 (14)拟合回归函数。步骤同实验内容二。略。
二、多元回归分析
(习题6.4)关下表是30家计算机硬件设备公司的每股价格( y )、每股账面价值( x1 )和每股资本收益率( x2 )的统计资料:
y 12.31 21.75 11 3.25 65.5 35.94 82.06 15 43 14.25 16.25 12.88 39.13 61.5 101.38
x1
4.94 9.46 4.95 4.33 9.58 8.46 2.33 7.35 22.4 4.11 6.83 9.13 6.07 14.14 20.12
x2 -49.7 -71.8 17.2 5.1 20.8 13.3 74.5 -11.9 -12.9 18.8 10.7 9 28.8 18.7 29.9
y 28.75 30.5 27.19 16.31 11.88 33 28.19 27.44 15.13 55.5 48 34.24 38.94 11.31 14.63
x1
6.35 3.78 12.59 3.64 3.56 10.03 10.64 9.12 6.15 22.38 6.4 9.49 10.25 0.68 3.48
x2
15.1 11.8 9.8 28.3 4 16.5 3.3 -4.3 16.1 11.1 26.2 8.7 14.3 1.6 24.3
(1) 试求估计回归函数;
(2) 检验H0:0=1=0(a=0.05); (3) 试求复判定系数R2;
(4) 试求0和1的95%置信区间;
(5) 对于一家每股账面价值x1= 9.48和每股资本收益率x2= 17.5的计算机,
.页脚
.
硬件设备公司,试对它的平均每股价格作出点估计并对其每股价格作出点预测;
(6) 在 (5) 中,试求平均每股价格的95%置信区间和每股价格的0.95置信区
间.
1. 建数据集 Data d0604; Input y x1 x2 @@; Cards; 12.31 4.94 21.75 9.46 11 4.95 3.25 65.5
-49.7 28.75 6.35 -71.8 30.5
3.78
15.1 11.8
17.2 27.19 12.59 9.8
28.3
4
4.33 9.58
5.1 16.31 3.64 20.8 13.3 74.5
11.88 3.56
35.94 8.46 82.06 2.33 15 7.35 43 22.4
33 10.03 16.5 28.19 10.64 3.3
-4.3 16.1
-11.9 27.44 9.12 -12.9 15.13 6.15
18.8 10.7
55.5
14.25 4.11 16.25 6.83 12.88 9.13 39.13 6.07 61.5
22.38 11.1
48 6.4 26.2
8.7
9 34.24 9.49 28.8
38.94 10.25 14.3 11.31 0.68 14.63 3.48
1.6 24.3
14.14 18.7
101.38 20.12 29.9 ;
.页脚
.
Run;
2. 使用“SAS/ 分析家”菜单
(15)打开“分析家”界面。调出数据文件 Work.D0604 。 (16)打开(多元)线性回归界面。 单击工具栏“(多元)线性回归”图标:
(17)设置(多元)线性回归界面,如图。
(3.1)输送变量。(此步骤操作必选,余下步骤可选)
输送y为Dependent变量;同时选中x1、x2设置为Explanatory变量。 (3.2)求回归系数求0和1的95%置信区间。 单击Statistics按钮,弹出页面:
.页脚
.
在Parameter estimates选项框中,勾选前两项。如图。即设置输出标准回归系数和参数估计置信区间。
(3.3)新采样点的点预测。
依据题目为例:x1= 9.48,x2= 17.5。
对平均每股价格作出点估计并对其每股价格作出点预测。
切换到程序编辑窗口,建立待预测数据集temp并运行程序。 Data temp; x1= 9.48; x2= 17.5; y=.; run;
切换到多元线性回归界面,单击Predictions按钮,弹出页面:
.页脚
.
在”预测输入”选项框中,勾选“Predict additional data”,单击实黑色右箭头,将弹出“选择成员”页面,选择新建的待预测数据集work.temp。然后,在“预测输出”选项框中,勾选“List predictions”,将显示预测结果列表。单击“OK”返回。 多元线性回归界面,单击Save data按钮,弹出页面:
勾选“Create and save diagnostics data”选项。
.页脚
.
按住键盘shift按钮,依次单击Predicted、L95M、U95M、L95、U95(含义分别是:预测值,平均y值的95%置信下限、上限,预测y值的95%置信下限、上限),单击界面“Add”按钮,完成预测统计量的添加。单击OK返回。
(3.4)完成多元线性回归界面设置,单击OK按钮。得到输出结果。
(18)保存数据的查看。
在SAS资源管理器中,双击新出现的文件夹 _proj_ ,
.页脚
.
双击Score,即可查看预测输出保存数据。
3. 解答 略。
三、 带虚拟变量的多元回归分析
(习题6.4) 一位经济学家想研究采取某项改革措施所需时间(y)对保险公司规模(x1,单位:百万美元)和保险公司类型(互助公司和股份公司)的关系。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。令虚拟变量X2=1 互助公司;X2=0 股份公司。
考虑回归模型:
Yi=0+1xi1+2xi2+i
10个互助公司和10个股份公司的有关调查数据见下表:
公司
y
x1
公司类型
1 2 3 4 5
17 26 21 30 22
151 互助 92 互助 175 互助 31 互助 104 互助
11 12 13 14 15
28 15 11 38 31
公司
Y
x1
公司类型 164 股份 272 股份 295 股份 68 股份 85 股份
.页脚
.
6 7 8 9 10
0 12 19 4 16
277 互助 210 互助 120 互助 290 互助 238 互助
16 17 18 19 20
21 20 13 30 14
224 股份 166 股份 305 股份 124 股份 246 股份
(1) 试求估计回归函数,并写出对每一公司类型的估计回归函数; (2) 解释回归系数的含义;
(3) 检验H0:1=2=0(a=0.05);
(4) 检验验H0:1 =0 和H0: 2=0(a=0.05);
(5) 试求1和2的95%置信区间。
实验步骤同上。略。
实验六(1) 判别分析
【实验目的】
掌握待判样品的距离判别法和贝叶斯判别法(A)。
【实验原理】
判别分析要解决的问题是,在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。三种常用的判别分析方法分别是距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别。对组的事先划分有时也可以通过聚类分析得到。
.页脚
.
【实验项目设计】
1. 距离判别; 2. 贝叶斯判别。
.页脚
.
【实验内容】
(习题8.4) 根据经验,今天和昨天的湿度差x 1及今天的压温差(气压与温度之差)x 2是预报明天是否下雨的两个重要因素。现收集到一批样本数据列于下表。
1(雨天)
2(非雨天)
x1(湿度差) x2(压温差) x1(湿度差) x2(压温差)
-1.9 -6.9 5.2 5 7.3 6.8 0.9 -12.5 1.5 3.8
3.2 10.4 2 2.5 0 12.7 -15.4 -2.5 1.3 6.8
0.2 -0.1 0.4 2.7 2.1 -4.6 -1.7 -2.6 2.6 -2.8
6.2 7.5 14.6 8.3 0.8 4.3 10.9 13.1 12.8 10
今测得x 1=0.6, x 2=3.0,假定两组的协方差阵相等。
(1) 试用距离判别法预报明天是否下雨,用(8.2.7)式即回判法来估计误判概率;
解答:明天下雨/不下雨_明天下雨_。
P2|1 0.2 , ·P1|2 0.1 。 误判率的回判法估计:·
T(2) 假定两组的xx,x12均服从二元正态分布,且根据其他信息及经验给出
先验概率p1= 0.3,p2= 0.7,试用贝叶斯判别法预报明天是否下雨; 解答:明天下雨/不下雨_____不下雨______。
.页脚
.
(3) 假如你现考虑是否为明天安排一项活动,该活动在时间上有紧迫性,但又不
太适合在雨天进行,并认为C(2|1)= 3C(1|2),那么你今天是否应该安排项这活动呢? 判别规则为: c1|2p2x1,若axμlnc2|1p1 c1|2p2x,若axμ<ln2c2|1p1aΣ1μ1μ2,μμ1μ2
2解答:安排/不安排__不安排_________。
8.4 程序附录:
Data d0804;
Input group x1 x2 @@; Cards; 1 -1.9
3.2 2 0.2 6.2
1 -6.9
10.4
2 -0.1
7.5
1 5.2 2 2 0.4 14.6 1 7.3 0 2 2.1 0.8 1 0.9 -15.4 2 -1.7 1 1.5 1.3 2 2.6 12.8 ; Run; Data t_d;
x1=0.6; x2=3.0; group=.; run;
1 5 2.5 2 2.7 8.3 1 6.8 12.7
2 -4.6
4.3
13.1
10.9
1 -12.5 -2.5 2 -2.6 10
1 3.8 6.8 2 -2.8
.页脚
.
Proc discrim data=d0804 testdata=t_d pool=yes list testlist listerr ; Class group; Var x1 x2; run;
Proc discrim data=d0804 testdata=t_d pool=yes testlist ; Class group; Var x1 x2;
Priors '1'=0.3 '2'=0.7; run;
.页脚
.
(习题8.5) 对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项
目,这些训练项目(成绩)为:30 米跑(x 1) ,投掷小球(x 2) ,挺举重量(x 3 ) ,抛实心球(x 4 ) ,前抛铅球(x 5 ),五级跳(x 6 ),全部数据列于下表。
编号 X1 1 2 3.6 3.3
X2 4.3 4.1
X3 82.3 87.48 X4 70
X5
X6
组别 1 1 90 18.52
80 100 18.48 .页脚
3
3.3 4 3.21 5 3.1 6 3.2 7 3.3 8 3.5 9 3.7 10 3.4 11 3.6 12 3.6 13 3.6 14 3.4 15
3.3
16 3.12 17 3.1 18 3.6 19
3.7
4.22
87.74 4.05 88.6 4.38 89.98 4.9 89.1 4.2 89 4.5 84.2 4.6 82.1 4.4 90.18 4.3 82.1 4.5 82 4.2 82.2 4.2 85.4 4.3 90.1 4.2 89 4.2 90.2 4.2 81.96 4.4
81
85 115 75 100
95 120 85 105 75
85 80 100 70
85 75 100 70 90 55 70
70
90 85 100 80 100 85 100 85 115 65 80 80
95
18.56 1 19.1
1 20.14 1 19.44 1 19.17
1 18.8
1 17.68
1 19.14 1 18.1 1 17.4
1 18.12
1 18.66 1 19.86 1 20 1 20.8 1 17.2 1 17
1
.
20 21 22 23 24 3.3 4.3 90 80 83.9 85.4 86.7 80 110 60
19.8 1 1 1 1 1 3.8 4.09 3.7 3.5 3.4 4.3 4.2 4.1 80 16.89
85 100 18.76 85 100 85 110 18.7 18.5
.页脚25 3.3 26 3.7 27 3.6 28 3.2 29 3.4 30 3.3 31 3.1 32 3.8 33 3 34 3.9 35 3.5 36 3.1 37 3.3
38
3.1 39 3.14 40
3.6
41 3.12 4.1 88.1 4.1 84.1 4.3 82 4.2 89.2 4 103 4.5 118 4.5
105
4.1 104.53 4.2 112 3.7 98.2 4.1 98.7 3.9 98.2
3.9
109 3.95
98.4 3.9 95.3 4.3 93.6 3.9
95.8
75 85 70 95 70
90
85 115 95 110 90 120 85 110
80 100 95 125 85
90
90 120 60
90 100 120 95 115
90 110 75
85 80 105
18.96 1 18.7 1 18.4
1 19.88 1 24.8 2 25.7 2 25.1
2 24.98 2 25.35 2 21.8
2 22.78 2 21.98
2 25.3 2 25.2
2 21.42 2 20.84
2 21.8
2
.
42 3 3.9 93.8 85 90 21.08 43
3.4 3.91 96.3 110 120 21.98 44 3.63 3.78 98.56 85 120 22.36 45 3.3 3.98 97.4 85 100 22.34 46 3.3 4.4 112
75 110
25.1 47 3.5 4.1 107.7 87.5 110 25.1
48 3.4 4.2 92.1 80 120 22.16 49 3.6 4.1 99.48 85 120 23.1 50
3.1
4.4 116 75 110
25.3
51 3.12 4 102.7 80 110 24.68 52 3.6 4.1 115 85 115 23.7 53
3.5
4.3
97.8
75 100
24.1
另有14名未定级的运动员也测试了同样6个项目,数据列表如下。
编号
X1
X2
X3 X4
X5
1 3.5 4.1 85.3 75 105 2 3.4 4.4 85.4 75 95 3 3.6 4.3 85.36 75 90 4 3.6 4.1 83.7 75 105 5 3.2 4.1 89.35 75 95 6 3.4 4.15 86.28 60 77.5 7 3.6
4.2
84.1
80
100
.页脚
2 2 2 2 2 2 2 2 2 2 2 2
X6 18.65 18.6 18.6 18.6 20.28 18.9 18.7
.
8 9 10 11 12 13 14
3.1 3 3.2 3.1 3.3 3.3 3.4
4.1 4.1 4.3 4.2 4.2 4.6 4.3
98 122 92.68 91.76 98.4 92 97.36
95 100 80 85 65 80 75
130 115 105 100 100 195 110
22.3 27.1 20.68 22.2 22.86 23.07 22.12
假定两组数据均来自于电影正态总体,且C(2|1)= C(1|2)。
(1) 对14名未定级的运动员,假设p1=p2,试在12和12的两组情形下分别都
他们归属何组作出贝叶斯判别;
① 12
判入一级的运动员编号:{1,3,5,6,7,9,11,12,13} 判入二级的运动员编号:{ 2,4,8,10,14 } ②12
判入一级的运动员编号:{1,3,5,6,7,9,11,13 } 判入二级的运动员编号:{2,4,8,10,12,14 }
(2) 试按(8.2.7)和(8.2.8)两式分别对(1)的误判概率作出估计; ① 12
P2|1 0 , ·P1|2 0 。 回判法的误判率:·P2|1 0 , ·P1|2 0 。 刀切法的误判率:·②12
P2|1 0 , 回判法的误判率:·P2|1 0 , 刀切法的误判率:··P1|2 0 .08 。
·P1|2 0 。
(3) 假设12,p1=0.8,p2=0.2,试对14名未定级的运动员的归属作出贝叶斯判别。 判入一级的运动员编号:{1,2,3,5,6,7,9,11,12,13} 判入一级的运动员编号:{4,8,10,14}
.页脚
.
8.5程序附录:
Data d0805;
Input no x1-x6 group @@; Cards;
1 3.6 4.3 82.3
70 90 18.52 1 29 3.4 4 103 95 110 24.8
2 2 3.3 4.1 87.48 80 100 18.48 1 30 3.3 4.5 118 90 120 25.7 2
3 3.3 4.22 87.74 85 115 18.56 1 31 3.1 4.5 105 85 110 25.1
2
4 3.21
4.05 88.6
75 100 19.1
1 32 3.8 4.1 104.53 80 100 24.985 3.1 4.38 89.98 95 120 20.14 1 33 3 4.2 112 95 125 25.35 2
6 3.2 4.9 89.1
85 105 19.44 1 34 3.9 3.7 98.2
85 90 21.8
2
7 3.3 4.2 89 75 85 19.17 1 35 3.5 4.1 98.7 90 120 22.78 2
8 3.5 4.5 84.2 80 100 18.8
1 36 3.1 3.9 98.2
60 90 21.98 2
9 3.7 4.6 82.1
70 85 17.68 1 37 3.3 3.9 109 100 120 25.3
2
10 3.4 4.4 90.18 75 100 19.14 1 38 3.1 3.95 98.4
95 115 25.2
2
11 3.6 4.3 82.1
70 90 18.1
1 39 3.14
3.9 95.3 90 110 21.42 2
12 3.6 4.5 82 55 70 17.4 1 40 3.6 4.3 93.6 75 85 20.84 2
13 3.6 4.2 82.2 70 90 18.12 1 41 3.12 3.9 95.8
80 105 21.8
2
14 3.4 4.2 85.4 85 100 18.66 1 42 3 3.9 93.8 85 90 21.08 2
15 3.3 4.3 90.1 80 100 19.86 1 43 3.4 3.91
96.3
110 120 21.98 2
16 3.12
4.2 89 85 100 20 1 44 3.63
3.78
98.56 85 120 22.36 2 17 3.1 4.2 90.2 85 115 20.8
1 45 3.3 3.98
97.4
85 100 22.34 2
18 3.6 4.2 81.96 65 80 17.2 1 46 3.3 4.4 112 75 110 25.1
2 19 3.7 4.4 81 80 95 17 1 47 3.5 4.1 107.7 87.5 110 25.1
2
20 3.3 4.3 90 80 110 19.8
1 48 3.4 4.2 92.1 80 120 22.16 2
.页脚
2
.
21 3.8 4.09 80 60 80 16.89 1 49 3.6 4.1 99.48 85 120 23.1
85 100 18.76 1 50 3.1 4.4 116 75 110 25.3 85 100 18.7 85 110 18.5
1 51 3.12
2
2
22 3.7 4.3 83.9 23 3.5 4.2 85.4 24 3.4 4.1 86.7 25 3.3 4.1 88.1 26 3.7 4.1 84.1
4 102.7 80 110 24.68 2
2
2
1 52 3.6 4.1 115 85 115 23.7
75 85 18.96 1 53 3.5 4.3 97.8 70 95 18.7
1
75 100 24.1
27 3.6 4.3 82 70 90 18.4 1
28 3.2 4.2 89.2 85 115 19.88 1 ; Run; Data t_d;
Input no x1-x6 @@; group=. ; Cards;
1 3.5 4.1 85.3 2 3.4 4.4 85.4
75 105 18.65 8 3.1 4.1 98 95 130 22.3 75 95 18.6
9 3 4.1 122 100 115 27.1 10 3.2 4.3 92.68 80 105 20.68 11 3.1 4.2 91.76 85 100 22.2
65 100 22.86
3 3.6 4.3 85.36 75 90 18.6 4 3.6 4.1 83.7
75 105 18.6
5 3.2 4.1 89.35 75 95 20.28 12 3.3 4.2 98.4 6 3.4 4.15
86.28 60 77.5
80 100 18.7
18.9
13 3.3 4.6 92 80 195 23.07
7 3.6 4.2 84.1 ; run;
14 3.4 4.3 97.36 75 110 22.12
Proc discrim data=d0805 testdata=t_d pool=yes list crosslist listerr testlist out01 testout02 ; Class group; Var x1-x6;
priors '1'=0.5 '2'=0.5;
.页脚
.
run;
Proc discrim data=d0805 testdata=t_d pool=no list crosslist listerr testlist testout03; Class group; Var x1-x6;
priors '1'=0.5 '2'=0.5; run;
Proc discrim data=d0805 testdata=t_d pool=yes list crosslist listerr testlist testout04 ; Class group ; Var x1-x6;
priors '1'=0.8 '2'=0.2; run;
实验六(2) 聚类分析
【实验目的】
掌握对未知分类样品进行系统聚类。
【实验原理】
判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。
聚类分析:将未分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。Q型聚类分析较多常见。
【实验项目设计】
1. 教学实验
2. 学生实验
.页脚
.
3. 学生实验参考解答 【实验内容】
一、教学实验
例9.3.1 (257页)设有五个样品,只测量了一个指标,分别是1,2,6,8,11,。 例9.3.2 (260页)对305名中学生测量8个指标: x1:身高 x5:体重 x2:手臂长 x6:颈围 x3:上肢长 x7:胸围 x4:下肢长 x8:胸宽
例9.3.3 (261页)表9.3.14列出了1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是 x1:食品 x5:交通和通讯
x2:衣着 x6:娱乐教育文化服务 x3:家庭设备用品及服务 x7:居住 x4:医疗保健 x8:杂项商品和服务
作聚类分析。为同等地对待每一变量,在作聚类前,先对各变量作标准化变换。
程序附录1:例9.3.1 系统聚类法
proc cluster data=e0901
method = single|complete|centroid |average|ward std outtree = treedata1;
var x;/* 用 x 作为计算距离的变量 */ id x; /* 用 x 作为样品的标识变量 */ run;
proc tree data=treedata1 horizontal ;
id x; /* 用 x 作为样品的标识变量,显示在谱系聚类图中 */ run;
.页脚
1. 2. 3.
.
程序附录2:例9.3.2 变量的距离聚类
data e0902(type=distance); array x(8) x1-x8; input varname $ x1-x8; do i=1 to 8;
x(i)=1-x(i);
end; drop i; cards;
x1 1.000 . . . . . . . x2 .846 1.000 . . . . . . x3 .805 .881 1.000 . . . . . x4 .859 .826 .801 1.000 . . . . x5 .473 .376 .380 .436 1.000 . . . x6 .398 .326 .319 .329 .762 1.000 . . x7 .301 .277 .237 .327 .730 .583 1.000 . x8 .382 .415 .345 .365 .629 .577 .539 1.000 ; run;
proc cluster data=e0902 method=com; var x1-x8; id varname;
.页脚
.
proc tree horizontal;
id varname;
run;
程序附录3:例9.3.3 大样品的k均值法快速聚类—Fastclus过程
大样本快速聚类(n=100~100,000) 输出类内指标均值,比较类间差异 没有原始数据标准化功能
需要指定类别数或初始凝聚点间最小距离 不能输出作树状图的聚类信息
proc standand data=e0903 mean=0 std=1 out=stddata; var x1-x8; /* 指定进行标准化的变量 */ run;
proc fastclus data=stddata maxc=5 drift list; var x1-x8; id region; run; 说明:
data= sas数据集,
maxc | maxcluster= 选项:指定允许的最大分类个数。
drift 选项:初始凝聚点选好后,每当一个观测归入最靠近的凝聚点所在的类后,该类的凝聚点都要被类中现有观测的均值替代。
list 选项:列表显示所有的样本点、它的id值、它归为哪一个cluster、它到自己的cluster的凝聚点的距离。
.页脚
.
二、学生实验
对例9.3.3, 不进行标准化变换,
1. 使用系统聚类法;写出程序和聚类结果。
2. 使用k均值快速聚类法分为5类;写出程序和聚类结果。
四、 学生实验参考解答
1. 使用系统聚类法;写出程序和聚类结果
(1)程序
proc standand data=e0903 mean=0 std=1 out=stddata; var x1-x8; run;
proc cluster data=e0903
method =war std outtree = treedata1 ; var x1-X8; id region; run;
proc tree data=treedata1 horizontal n=3 out=clsdata; id region; run;
proc sort ; by cluster; run;
.页脚
.
proc print data=clsdata; run;
(2)聚类结果
G1={山西,甘肃,黑龙江,宁夏,河北,新疆,辽宁,青海,湖南,四川,内蒙古吉林,陕西,江西,河南,湖北,山东,贵州,安徽,广西,海南} G2={江苏,云南,重庆,天津,浙江,福建,西藏} G3={北京,上海,广东 }
2. 使用k均值快速聚类法分为5类;写出程序和聚类结果 。 (1) 程序
proc standand data=e0903 mean=0 std=1 out=stddata; var x1-x8; run;
proc fastclus data=stddata maxc=5 drift list; var x1-x8; id region;
run;
(2) 聚类结果
G1={北京,上海,浙江 } G2={广东}
G3={天津,江苏,福建,山东,湖南,广西,重庆,四川,云南} G4={河北,山西,内蒙古,辽宁,吉林,黑龙江,安徽,江西,河南 湖北,海南,贵州,陕西,甘肃,青海,宁夏,新疆} G5={西藏}
.页脚
.
实验七 主成分分析
【实验目的】
掌握从多变量中提取主成分的规则、方法(A)
【实验原理】
主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
主成分分析的一般目的是:a)变量的降维;b)主成分的解释。
【实验项目设计】
给定若干组多变量数据,进行主成分提取;依据前两个主成分得分绘制散点图;对主成分进行合理解释。
【实验内容】
(习题10.5) 表中给出的是美国50个州每100 000个人中七种犯罪的比率数据,试做主成份分析。 数据下载即可。实验要求:写出主成分的表达式;画出前两个主成分的散点图,并贴图。
1 参考程序
proc print data=tmp1.c1005 ; run; proc princomp data=c1005 out=prin; var x1-x7; run; proc plot;
plot prin2*prin1 $state='*'; run;
.页脚
.
2 解答内容
(1)变量的个数p= ;选取的主成分个数m= 。 (2)主成分和原始变量的相关系数矩阵(贴图)。 (3)总方差= 。 对选取的m个主成分:
(3.1)对方差的累计贡献率= ; (3.2)对原始变量的贡献率 变量 x1 x2 x3 x4 x2 2 (4)主成分的表达式。
Y1= ; Y2= ; (5)画出前两个主成分的散点图,并贴图。
x3 X7 .页脚
.
(习题10.6) 下表是纽约股票交易所的5只股票从75年·月到76年12月期间的周回报。周回报率定义为:
本周五收盘价-本周五收盘价周回报率=
本周五收盘价试做主成分分析。数据下载即可。
实验要求:写出主成分的表达式;并依据个人理解进行解释。
1 参考程序
proc princomp data= tmp1.c1006 ; var x1-x5; run;
2 主成分的表达式及解释
Y1= ; 解释: ; Y2= ; 解释: ;
参考答案:
10.5 表中给出的是美国50个州没100 000个人中七种犯罪的比率数据,试做主成份分析。数据下载即可。实验要求:写出主成分的表达式;画出前两个主成分的散点图,并贴图。
1 参考程序
proc print data=tmp1.c1005 ; run; proc princomp data=c1005 out=prin; var x1-x7; run; proc plot;
plot prin2*prin1 $state='*'; run;
2 解答内容
(1)变量的个数p= 7 ;选取的主成分个数m= 3 。 (2)主成分和原始变量的相关系数矩阵(贴图)。 0.6091 -0.7003
.页脚
0.1519 -0.1306 0.2733 0.1221 0.0943
.
0.8758 -0.1886 0.8051
0.047
-0.208 0.035 0.0957 -0.3644 -0.1044
0.4224 -0.3139 -0.2641 -0.0539 -0.0014
0.3543 -0.2573
0.0513 0.0153 0.1878
0.0812
0.0675
0.8046 -0.3823 -0.0592 0.8929 0.7249 0.5988
0.2263 -0.1788 -0.0324 0.4478 -0.4594 -0.1321 0.5592
0.4842
0.2358
0.2526 -0.2283 0.0186 -0.027
0.2119 0.0518
(3)总方差= 7 。 对选取的m个主成分:
3.1 对方差的累计贡献率= 86.85% ; 3.2 对原始变量的贡献率 变量 x1 x2 x3 x4 X5 X6 X7 2 0.8844 0.8459 0.82882 0.7971 0.8804 0.937053 0.9057
(4)主成分的表达式。
Y1=0.3003*x1+0.4318*x2+0.3969*x3+0.3967*x4+0.4402*x5+0.3574*x6+0.2952*x7; Y2=-0.6292*x1-0.1694*x2+0.0422*x3-0.3435*x4+0.2033*x5+0.4023*x6+0.5024*x7; (5)画出前两个主成分的散点图,并贴图。
.页脚
.
.页脚
.
10.6 下表是纽约股票交易所的5只股票从75年·月到76年12月期间的周回报。周回报率定义为:
本周五收盘价-本周五收盘价周回报率=
本周五收盘价试做主成份分析。数据下载即可。
实验要求:写出主成分的表达式;并依据个人理解进行解释。
1 参考程序
proc princomp data= tmp1.c1006 ; var x1-x5; run;
2 主成分的表达式及解释
Y1= 0.4635*x1+0.4571*x2+0.4700*x3+0.4217*x4+0.4213*x4 ;
解释:第一主成分Y1对所有(标准化)原始变量都有近似相等的正载荷,在的Y1值意味着各变量都倾向于有大的值,即表示各股票的市场万分大,小的Y1值意味着各变量都倾向于有较小的值,即表示市场股分小。;
Y2= -0.2409*x1-0.5091*x2-0.2606*x3+0.5253*x3+0.5822*x4 ;
解释: 第二主成分Y2在x3,x4上有中等程度的正载荷,而在x1,x2,x3上有中等程度的负载荷,大的Y2值意味着变量x3,x4倾向于有大的值,而变量x1,x2,x3有倾向于小的值。因此第二主成分为行业成分。
实验八 因子分析
【实验目的】
熟悉因子分析的分析过程(B)。
【实验原理】
因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。
.页脚
.
因子分析的用途与主成分分析类似,它也是一种降维方法。因子分析降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。
【实验项目设计】
1. 依据相关矩阵进行变量因子分析;
2. 给定一组多变量数据,进行变量公共因子提取和解释。 3. 参考解答 【实验内容】
一、 依据相关矩阵进行变量因子分析
(习题11.1) 在例11.1.1 中,十项全能运动得分的样本相关矩阵为 R=[ 1
0.59 1
0.35 0.42 1
0.34 0.51 0.38 1
0.63 0.49 0.19 0.29 1 0.4 0.52 0.36 0.46 0.34 1
0.28 0.31 0.73 0.27 0.17 0.32 1 0.2 0.36 0.24 0.39 0.23 0.33 0.24 1
0.11 0.21 0.44 0.17 0.13 0.18 0.34 0.24 1
-0.07 0.09 -0.08 0.18 0.39 0 -0.02 0.17 -0 1 ] 写出因子分析的实验程序。
data bexec11c1(type=corr); input x1-x10; cards;
1.00 0.59 0.35 0.34 0.63 0.40 0.28 0.20 0.11 -0.07 . 1.00 0.42 0.51 0.49 0.52 0.31 0.36 0.21 0.09 . . 1.00 0.38 0.19 0.36 0.73 0.24 0.44 -0.08
.页脚
.
. . . 1.00 0.29 0.46 0.27 0.39 0.17 0.18 . . . . 1.00 0.34 0.17 0.23 0.13 0.39 . . . . . 1.00 0.32 0.33 0.18 0.00 . . . . . . 1.00 0.24 0.34 -0.02 . . . . . . . 1.00 0.24 0.17 . . . . . . . . 1.00 -0.00 . . . . . . . . . 1.00 ;
proc factor n=4 method=ml heywood rotate=varimax; var x1-x10; run;
二、依据多变量原始数值数据进行因子分析
(习题11.2) 下表给出的数据是在洛杉矶12个标准大都市居民统计地区中进行人口调查获得的。它有5个社会经济变量,它们分别是人口总数(x1)、居民的教育程度或者中等教育的年数(x2)、佣人总数(x3)、各种服务行业的人数(x4)和中等房价(x5)。试做因子分析。
地区编号 1 2 3 4 5 6 7 .页脚
X1 5700 1000 3400 3800 4000 8200 1200 X2 12.8 10.9 8.8 13.6 12.8 8.3 11.4 X3 2500 600 1000 1700 1600 2600 400 X4 X5 270 25000 10 10000 10 9000 140 25000 140 25000 60 12000 10 16000 . 8 9 10 11 12
实验程序:
实验论述:
1. 将原始数据标准化
9100 9900 9600 9600 9400 11.5 12.5 13.7 9.6 11.4 3300 3400 3600 3300 4000 60 14000 180 18000 390 25000 80 12000 100 13000 2. 建立变量之间的相关系数阵R(贴图): 3. R的特征值和特征向量(贴图):
4. 潜因子数目m= ; 因子载荷阵A(贴图): 5. 对因子载荷阵实行方差最大旋转 旋转矩阵T(贴图):
旋转后的因子载荷阵A*=AT(贴图):
所有潜因子对原始变量的共性方差(贴图):
6. 根据载荷阵A*,将5个指标按高载荷分类为:
潜因子 F1 高载荷指标 X : X : X : X : 潜因子命名 .页脚
. F2 X : X : 7. 回归法的标准得分系数(贴图):
如果m>2,结束答题;如果m=2,继续完成下面的题目。
8. 根据前两个潜因子的载荷系数列(ai1*),(ai2*),画出类似323页的散点图。 9. 根据输出数据集,画出类似331页的因子得分散点图。 10. 根据第9问图形,你可以得出什么结论?
三、参考答案
实验程序:
data sasuser.bexec11c2 ; input no x1 x2 x3 x4 x5; datalines; 1 5700 2 1000 3 3400 4 3800 5 4000 6 8200 7 1200 8 9100 9 9900
12.8 10.9
2500
270 25000
600 10 10000
8.8 1000 10 9000 13.6 12.8
1700 1600
140 25000 140 25000
8.3 2600 60 12000 11.4 11.5 12.5
400 10 16000 3300 3400
60 14000 180 18000
10 9600 13.7 3600 390 25000
11 9600 9.6 3300 80 12000 12 9400 11.4
.页脚
4000 100 13000
.
;
proc factor simple corr; run;
proc factor data=sasuser.bexec11c2 n=2 rotate=varimax out=out11c2; var x1-x5;
proc factor data=sasuser.bexec11c2 n=2 method=ml heywood rotate=varimax; var x1-x5; run;
proc princomp data=sasuser.bexec11c2 out=bexec1 outstat=bexec2 standard;
var x1-x5; run; data factor; input no$ f1 f2; datalines;
x1 0.01602 0.99377 x2 0.94076 -0.00882 x3 0.13702 0.98007 x4 0.82481 0.44714 x5 0.96823 -0.00605 ; run;
proc plot data=factor; plot f2*f1 $no='*';
.页脚
.
run;
proc plot data=out11c2; plot factor2*factor1 $no='*' ; run;
实验论述:
1. 将原始数据标准化
2. 建立变量之间的相关系数阵R(贴图):
3. R的特征值和特征向量(贴图):
4. 潜因子数目m= 2 ; 因子载荷阵A(贴图):
.页脚
.
5. 对因子载荷阵实行方差最大旋转 旋转矩阵T(贴图):
旋转后的因子载荷阵A*=AT(贴图):
所有潜因子对原始变量的共性方差(贴图):
6. 根据载荷阵A*,将5个指标按高载荷分类为:
潜因子 F1 高载荷指标 X5 : X2 : X4 : F2 X1 : X3 : X4 : .页脚
潜因子命名 发展因子 基数因子 .
7. 回归法的标准得分系数(贴图):
如果m>2,结束答题;如果m=2,继续完成下面的题目。
8. 根据前两个潜因子的载荷系数列(ai1*),(ai2*),画出类似323页的散点图。
9. 根据输出数据集,画出类似331页的因子得分散点图。
.页脚
.
10. 根据第9问图形,你可以得出什么结论?
12号的地区基数因子得分最高,说明较大人口与雇佣人口总数是影响当地的社会经济的主要因素;
10号的地区发展因子得分最高,说明较高的受教育水平,服务行业的人数,房价水平是影响当地的社会经济的主要因素,同时它的基数因子得分排第二,即当地人口总数也较大。 2号与7号的地区两种因子都比较低,即当地的人口与社会发展程度处于相对比较落后水平。
.页脚
因篇幅问题不能全部显示,请点此查看更多更全内容