您的当前位置:首页正文

主成分分析与医学应用

来源:一二三四网
主成分分析与医学应用

10级GIS班 沈娅男 100154022

在社会经济各方面的问题的研究中,问题的解决常常牵涉到许多层面和变量因素,各因素间往往会存在一定的相关关系。变量因素太多,无疑会增加分析问题的难度和复杂性,因此,我们很容易联想到在相关关系分析的基础上,用尽可能少的新变量来拟合代替原来较多的变量,而尽可能多的保留原来变量所反映的信息,这就是主成分分析方法。

主成分分析方法反映了一种降维处理和分析的思维方法,在解决各种复杂问题时往往能起到意想不到的作用。在这里,我着重想要体现主成分分析在医学研究中的应用。一方面是因为医学与人类的健康密切相关,医学的发展关系到人类最根本的福祉;另一方面是因为医学具备巨大的实践价值,医学的研究成果可以发展生产力从而带动国民经济的发展。近年来,由于统计学的发展和各种技术的进步,对数据进行各种定量分析已被广泛应用于医学研究中。主成分分析方法也被广泛使用。

在这里我选择了一个案例来说明主成分分析在医学研究中的作用。分析的数据来自《中国主要年份儿童保健情况统计(1996~2007)》。

中国主要年份儿童保健情况统计(1996~2777)

年份 出生体重小于两千五百克比重 % 1,996 1,997 1,998 1,999 2,000 2,001 2,002 2,003 2,004 2,005 2,006 2,007 2.31 2.58 2.39 2.40 2.35 2.39 2.26 2.20 2.21 2.22 2.26 14.44 15.14 14.94 14.22 13.99 13.28 12.47 12.24 11.08 10.27 9.68 8.71 4.12 4.16 2.74 2.24 1.88 1.41 1.33 1.40 0.98 0.77 0.64 0.47 围产儿死亡率‰ 新生儿破伤风发病新生儿破伤风(1/万) 2.90 2.97 1.86 1.48 1.16 0.84 0.73 0.83 0.51 0.39 0.32 0.20 五岁以下儿童中重度营养不良比重% 3.73 3.51 3.41 3.29 3.09 3.01 2.83 2.70 2.56 2.34 2.10 2.02 81.40 82.38 83.74 85.42 85.80 86.27 86.12 84.65 84.96 85.03 84.70 85.59 61.41 65.65 69.07 72.34 73.84 74.65 73.88 72.77 73.73 73.88 73.90 74.39 62.70 65.83 68.89 71.77 73.37 74.47 74.03 72.68 74.44 74.79 75.00 75.89 新生儿访视三岁以下儿童理率 % 七岁以下儿童保健管理率 % 率(1/万) 死亡率率 % 系统管

本例中有9个变量,分别是年份、出生体重小于两千五百克比重、围产儿童死亡率、新生儿破伤风发病率、新生儿破伤风死亡率、五岁以下儿童中重度营养不良比重、新生儿访视率、三岁以下儿童系统管理率、七岁以下儿童保健管理率。然后按下列步骤计算(利用SPSS软件):

(1)、计算相关系数矩阵:我利用SPSS软件求得了除年份以外的另外八个变量之间的相关系数矩阵,结果如下表,从表中可以看出,各变量之间具有一定的相关关系而且有些相关系数还比较大,接近于1,所以本例很适合使用主成分分析。

相关矩阵 出生体重小于两千五百克比重 围产儿死亡率 新生儿破伤风发病率 新生儿破伤风死亡率 五岁以下儿童中重度营养不良比重 新生儿访视率 三岁以下儿童系统管理率 七岁以下儿童保健管理率 出生体重小于两千五百克比重 围产儿死亡率 新生儿破伤风发病率 新生儿破伤风死亡率 五岁以下儿童中重度营养不良比重 新生儿访视率 三岁以下儿童系统管理率 七岁以下儿童保健管理率 1.000 .331 -.064 -.075 .142 .439 .355 .234 .331 1.000 .848 .833 .970 -.429 -.607 -.730 -.064 .848 1.000 .999 .918 -.807 -.918 -.966 -.075 .833 .999 1.000 .905 -.820 -.924 -.968 .142 .970 .918 .905 1.000 -.563 -.748 -.842 .439 -.429 -.807 -.820 -.563 1.000 .950 .910 .355 -.607 -.918 -.924 -.748 .950 1.000 .985 .234 -.730 -.966 -.968 -.842 .910 .985 1.000

(2)、计算各成分的特征值、方差贡献率和累积贡献率,结果如下:

解释的总方差 初始特征值 成份 1 2 3 4 5 6 7 8 合计 6.084 1.581 .265 .039 .028 .003 .001 .000 方差的 % 76.052 19.758 3.310 .483 .355 .034 .007 .002 累积 % 76.052 95.810 99.120 99.603 99.958 99.992 99.998 100.000 合计 6.084 1.581 提取平方和载入 方差的 % 76.052 19.758 累积 % 76.052 95.810 提取方法:主成份分析。

由表可知,只有前两个变量因素的特征值大于1,因此选择前两个作为主成分,第一主成分的方差贡献率是76.052%,前两个主成分的方差占所有成分方差的95.810%,由此可见,前两个主成分已足够代替原来的变量,几乎涵盖原变量的全部信息。

(3)、计算主成分载荷,得到以下的成分矩阵:

成份矩阵

出生体重小于两千五百克比重 围产儿死亡率 新生儿破伤风发病率 新生儿破伤风死亡率

五岁以下儿童中重度营养不良比重 新生儿访视率

三岁以下儿童系统管理率 七岁以下儿童保健管理率 提取方法 :主成份。 a. 已提取了 2 个成份。

成份

F 1

-.134 .820 .992 .991 .906 -.853 -.951 -.988 F 2

.932 .537 .074 .056 .357 .439 .280 .129 a

从中可以得到两主成分的表达式,即:

F1 = -0.134*出生体重小于两千五百克比重+0.820*围产儿死亡率+0.992*新生儿破伤风发病率+0.991*新生儿破伤风死亡率+0.906*五岁以下儿童中重度营养不良比重-0.853*新生儿访视率-0.951*三岁以下儿童系统管理率-0.988*七岁以下儿童保健管理率

同理可得F2的表达式。

(4)、得出结论:在第一主成分中,除了出生体重小于两千五百克比重以外的变量的系数都比较大;在第二主成分中变量出生体重小于两千五百克比重的系数比较大,可以看做是反映变量出生体重小于两千五百克比重的指标。

这样,我们就用这两个主成分概括了所有的指标,描述了中国主要年份儿童的保健情况。

从该案例中可以看出主成分分析具有化繁为简,简明清晰的优点,用最少的成分概括了原来纷杂的变量之间的联系。该统计分析法不失为解决实际应用问题的一个有力工具。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top