当前位置:首页 > 互联网百科 > 正文内容

多元回归分析介绍(什么是分层逐步多元回归分析?)

370SEO1年前 (2024-02-16)208

多元回归分析介绍

1、多元回归分析(Multiple Regression Analysis)是指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析 *** 。2、另外也有讨论多个自变量与多个因变量的线性依赖关系的多元回归分析,称为多元多重回归分析模型(或简称多对多回归)。

什么是分层逐步多元回归分析?

如何分层?如何进行SPSS操作?以及如何进行表格书写?
所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计 *** 建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析 *** ,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
分层回归其实是对两个或多个回归模型进行比较。我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。一个模型解释了越多的变异,则它对数据的拟合就越好。假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验。

模型比较可以用来评估个体预测变量。检验一个预测变量是否显著的 *** 是比较两个模型,其中之一个模型不包括这个预测变量,而第二个模型包括该变量。假如该预测变量解释了显著的额外变异,那第二个模型就显著地解释了比之一个模型更多的变异。这种观点简单而有力。但是,要理解这种分析,你必须理解该预测变量所解释的独特变异和总体变异之间的差异。

一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方。它包括该预测变量和结果变量之间的所有关系。

预测变量的独特变异是指在控制了其他变量以后,预测变量对结果变量的影响。这样,预测变量的独特变异依赖于其他预测变量。在标准多重回归分析中,可以对独特变异进行检验,每个预测变量的回归系数大小依赖于模型中的其他预测变量。

在标准多重回归分析中,回归系数用来检验每个预测变量所解释的独特变异。这个独特变异就是偏相关的平方(Squared semi-partial correlation)-sr2(偏确定系数)。它表示了结果变量中由特定预测变量所单独解释的变异。正如我们看到的,它依赖于模型中的其他变量。假如预测变量之间存在重叠,那么它们共有的变异就会削弱独特变异。预测变量的独特效应指的是去除重叠效应后该预测变量与结果变量的相关。这样,某个预测变量的特定效应就依赖于模型中的其他预测变量。

标准多重回归的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量。这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。总决定系数包括偏决定系数之和与共同变异。分层回归提供了一种可以将共同变异分配给特定预测变量的 *** 。

分层回归

标准多重回归可以测量模型所解释的变异量的大小,它由复相关系数的平方(R2,即决定系数)来表示,代表了预测变量所解释的因变量的变异量。模型的显著性检验是将预测变量所解释的变异与误差变异进行比较(即F值)。

但是,也可以采用相同的方式来比较两个模型。可以将两个模型所解释的变异之差作为F值的分子。假如与误差变异相比,两个模型所解释的变异差别足够大,那么就可以说这种差别达到了统计的显著性。相应的方程式将在下面详细阐述。

分层回归就是采用的这种方式。分层回归包括建立一系列模型,处于系列中某个位置的模型将会包括前一模型所没有的额外预测变量。假如加入模型的额外解释变量对解释分数差异具有显著的额外贡献,那么它将会显著地提高决定系数。

这个模型与标准多重回归的差异在于它可以将共同变异分配到预测变量中。而在标准多重回归中,共同变异不能分配到任何预测变量中,每个预测变量只能分配到它所解释的独特变异,共同变异则被抛弃了。在分层回归中,将会把重叠(共同)变异分配给之一个模型中的预测变量。因此,共同变异将会分配给优先进入模型的变量。

重叠的预测变量(相关的预测变量Predictor variables that overlap)
简单地看来,由一系列预测变量所解释的变异就像一块块蛋糕堆积在一起。每个预测变量都有自己明确的一块。它们到达桌子的时间是无关紧要的,因为总有同样大小的蛋糕在等着它们。不同部分变异的简单相加就构成了某个模型所解释的总体变异。

但是,这种加法的观点只有在每个预测变量互相独立的情况下才是正确的。对于多重回归来说,则往往不正确。假如预测变量彼此相关,它们就会在解释变异时彼此竞争。归因于某个预测变量的变异数量还取决于模型中所包含的其他变量。这就使得我们对两个模型的比较进行解释时,情况变得更为复杂。

方差分析模型是建立在模型中的因素相互独立的基础上的。在ANOVA中,因素对应于多重回归中的预测变量。这些因素具有加法效应,变异(方差)可以被整齐地切开或分割。这些因素之间是正交的。

但是,在多重回归中,变量进入模型的顺序会影响该变量所分配的变异量。在这种情况下,预测变量就像一块块浸在咖啡杯中的海绵。每一块都吸收了一些变异。在分层多重回归中,之一块浸入咖啡杯的海绵首先吸收变异,它贪婪地吸收尽可能多的变异。假如两个预测变量相关,那它们所解释的变异就存在重叠。如果一个变量首先进入模型,那它就将重叠(共同)变异吸收据为己有,不再与另一个变量分享。

在标准多重回归中,所有预测变量同时进入模型,就像将所有海绵同时扔进咖啡杯一样,它们互相分享共同变异。在这种情况下,偏相关的平方(sr2)与回归系数相等,它们检验了相同的东西:排除了任何共同变异后的独特变异。这样,在多重回归中,对回归系数的T检验就是sr2的统计显著性检验。但是,在分层回归或逐步回归中,sr2不再与回归系数相等。但T检验仍然是对回归系数的检验。要估计sr2是否显著,必须对模型进行比较。

模型比较就是首先建立一个模型(模型a),使它包括除了要检验的变量以外的所有变量,然后再将想要检验的变量加入模型(模型b),看所解释的变异是否显著提高。要检验模型b是否要比模型a显著地解释了更多的变异,就要考察各个模型所解释的变异之差是否显著大于误差变异。下面就是检验方程式(Tabachnik and Fidell, 1989)。

(R2b-R2a)/M

F = ————————

(1+ R2b) /dferror

(2为平方,a,b为下标。不知道在blog里如何设置文字格式)

原文(DATA ANA *** SIS FOR PSYCHOLOGY, George Dunbar)如此,但参考了其他书后,觉得这是误印,真正的公式应该是这样的:

(R2b-R2a)/M

F = ————————

(1- R2b) /dferror
注:

M是指模型b中添加的预测变量数量

R2b是指模型b(包含更多预测变量的模型)的复相关系数的平方(决定系数)。

R2a是指模型a(包含较少预测变量的模型)的复相关系数的平方(决定系数)。

dferror是指模型b误差变异的自由度。

分层回归与向前回归、向后回归和逐步回归的区别
后三者都是选择变量的 *** 。

向前回归:根据自变量对因变量的贡献率,首先选择一个贡献率更大的自变量进入,一次只加入一个进入模型。然后,再选择另一个更好的加入模型,直至选择所有符合标准者全部进入回归。

向后回归:将自变量一次纳入回归,然后根据标准删除一个最不显著者,再做一次回归判断其余变量的取舍,直至保留者都达到要求。

逐步回归是向前回归法和向后回归法的结合。首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量。每将一个变量加入模型,就要对模型中的每个变量进行检验,剔除不显著的变量,然后再对留在模型中的变量进行检验。直到没有变量可以纳入,也没有变量可以剔除为止。

向前回归、向后回归和逐步回归都要按照一定判断标准执行。即在将自变量加入或删除模型时,要进行偏F检验,计算公式为:

(R2b-R2a)/M

F = ————————

(1- R2b) /dferror

SPSS回归所设定的默认标准是选择进入者时偏F检验值为3.84,选择删除者时的F检验值为2.71。

从上面可以看出,分层回归和各种选择自变量的 *** ,其实都涉及模型之间的比较问题,而且F检验的公式也相等,说明它们拥有相同的统计学基础。但是,它们又是不同范畴的概念。分层回归是对于模型比较而言的,而上面三种 *** 则是针对自变量而言的。上面三种选择自变量的 *** ,都是由软件根据设定标准来自动选择进入模型的变量。而分层回归则是由研究者根据经验和理论思考来将自变量分成不同的组(block),然后再安排每一组变量进入模型的顺序,进入的顺序不是根据贡献率,而是根据相应的理论假设。而且,研究者还可以为不同组的自变量选用不同的纳入变量的 *** 。

分层回归在SPSS上的实现

在线性回归主对话框中,在定义完一组自变量后,在因变量不变的情况下,利用block前后的previous和next按钮,继续将其他变量组加入模型。

下面分享相关内容的知识扩展:

处理多元线性回归中自变量共线性的几种 *** 详细�0�3

包括筛选变量法, 岭回归分析法, 主成分回归法和偏最小二乘回归法。关键词: 回归、SASSTAT、共线性、筛选变量、岭回归、主成分回归、偏最小二乘回归。中图分类号: 0212; C8 文献标识码: A 回归分析 *** 是处理多变量间相依关系的统计 *** 。它是数理统计中应用最为广泛的 *** 之一。在长期的大量的实际应用中人们也发现: 建立回归方程后, 因为自变量存在相关性, 将会增加参数估计的方差, 使得回归方程变得不稳定; 有些自变量对因变量(指标) 影响的显著性被隐蔽起来; 某些回归系数的符号与实际意义不符合等等不正常的现象。这些问题的出现原因就在于自变量的共线性。本文通过例子来介绍自变量共线性的诊断 *** 以及使用SA SSTA T 软件6. 12 版本中REG 等过程的增强功能处理回归变量共线性的一些 *** 。一、共线性诊断共线性问题是指拟合多元线性回归时, 自变量之间存在线性关系或近似线性关系。共线性诊断的 *** 是基于对自变量的观测数据构成的矩阵X′X 进行分析, 使用各种反映自变量间相关性的指标。共线性诊断常用统计量有方差膨胀因子V IF (或容限TOL )、条件指数和方差比例等。方差膨胀因子V IF 是指回归系数的估计量由于自变量共线性使得其方差增加的一个相对度量。对第i 个回归系数, 它的方差膨胀因子定义为 V I F i = 第i 个回归系数的方差自变量不相关时第i 个回归系数的方差 = 1 1 - R 2 i = 1 TOL i 其中R 2 i 是自变量xi 对模型中其余自变量线性回归模型的R 平方。V IFi 的倒数TOL i 也称为容限( To lerance )。一般建议, 若V IF> 10, 表明模型中有很强的共线性问题。若矩阵X′X 的特征值为d 2 1 ≥d 2 2 ≥…≥d 2 k, 则X 的条件数 d1 dk 就是刻划它的奇性的一个指标。故称 d1 dj (j= 1, …, k) 为条件指数。一般认为, 若条件指数值在10 与30 间为弱相关; 在30 与100 间为中等相关; 大于100 表明有强相关。对于大的条件指数, 还需要找出哪些变量间存在强的线性关系。因为每个条件指数对应一 9 4 处理多元线性回归中自变量共线- 性的几种 *** 个特征向量, 而大的条件指数相应的特征值较小, 故构成这一特征向量的变量间有近似的线性关系。在统计中用方差比例来说明各个自变量在构成这个特征向量中的贡献。一般建议, 在大的条件指数中由方差比例超过0. 5 的自变量构成的变量子集就认为是相关变量集。二、筛选变量的 *** 变量筛选的一些 *** 除了把对因变量Y 影响不显著的自变量删除之外, 还可以从有共线关系的变量组中筛选出对因变量Y 影响显著的少数几个变量。例 1 (水泥数据) 某种水泥在凝固时放出的热量Y (卡克) 与水泥中下列四种化学成份有关: x1 ( 3CaO. A l2O3 的成份)、x2 (3CaO. SiO2 的成份)、x3 (4CaO. A l2O3. Fe 2 O3 的成份) 和x4 (2CaO. SiO2 的成份)。共观测了13 组数据(见表1) , 试用REG 过程分析水泥数据, 求出Y 与 x1, x2, x3, x4 的更优回归式。 表1 水泥数据序号 x1 x2 x3 x4 Y 1 2 3 4 5 6 7 8 9 10 11 12 13 7 1 11 11 7 11 3 1 2 21 1 11 10 26 29 56 31 52 55 71 31 54 47 40 66 68 6 15 8 8 6 9 17 22 18 4 23 9 8 60 52 20 47 33 22 6 44 22 26 34 12 12 78. 5 74. 3 104. 3 87. 6 95. 9 109. 2 102. 7 72. 5 93. 1 115. 9 83. 8 113. 3 109. 4 解 (1) 首先用REG 过程对自变量的共线性进行诊断, 只需在MODEL 语句的斜杠() 后使用选项V IF 和COLL INO IN T (或 COLL IN ) , 以下SA S 程序输出的部分结果见输出1. 1 (假设表1 中的数据已生成SA S 数据集D1)。 p roc reg data= d1; model y= x1- x4 vif co llino int; run; 由输出1. 1 的参数估计部分, 可以得出: ① 4 个自变量的方差膨胀因子( V IF ) 均大于10, 更大为282. 51, 表示变量之间有严重的多重共线关系。② 回归方程的截距项= 0 的假设是相容的( p 值= 0. 3991) ; ③ 所有自变量在Α= 0. 05 的显著水平下对因变量的影响均不显著(有三个变量的p 值大于0. 5) , 而回归方程是高度显著的(p 值= 0. 0001, 输出1. 1 没有显示) , 这说明自变量对因变量的显著影响均被变量间的多重相关性隐藏了。由输出1. 1 的共线性诊断部分, 可以得出: ① 更大条件指数37. 1> 30, 说明4 个自变量间有中等相关关系; ② 与更大条件指数在一行的4 个变量的方差比例均大于0. 5, 这说明这4 个变量就是一个具有中等相关的变量集。 输出1. 1 水泥数据共线性诊断的部分结果 (2) 用逐步回归 *** 从相关变量集中选出“更优”回归子集, 当引入和删除的显著性水平Α取为0. 05 时, 入选的自变量为x1 和 x4; 当显著性水平 Α取为 0. 10 或0. 15 时, 则入选的自变量为x1 和x2。可见用逐步筛选的 *** 得到的回归子集与显著水平的选取 0 5 数理统计与管理 20 卷 5 期 2000 年9 月有关, 选出的子集是某个较优的回归方程。容易验证这里得到的两个子集中变量对Y 的影响都是高度显著的, 且自变量的方差膨胀因子V IF 值都小于1. 1, 表明已没有共线问题。 ( 3) 用全子集法计算所有可能回归, 从中选出更优的回归方程。以下 SA S 程序中, MODEL 语句斜杠() 后的选项指出用R 2 选择法, 要求对每种变量个数输出二个更佳的回归子集, 并输出均方根误差、CP、A IC 和修正R 2 统计量, 产生的结果见输出1. 2。 p roc reg data= d431; model y= x12x4 select ion= rsquare best= 2 cp aic rm se adjrsq; run; 输出1. 2 对水泥数据计算所有可能回归的部分结果 在模型中变量个数固定为2 的回归子集中选出的更优回归子集是x1 和x2, 其次是x1 和 x4。如果按均方根误差最小的准则、修正R 2 更大准则及A IC 最小准则, 选出的更优子集都是 x1、x2 和x4。但在回归系数的显著性检验中, x4 对Y 的作用不显著( p= 0. 2054) ; 且x2 和x4 的方差膨胀因子V IF 值> 10, 共线诊断的结论也说明x2 和x4 是相关的变量集。而按CP 统计量最小淮则选出的更优回归子集为x1 和x2。综合以上分析可得出Y 与x1、x2 的回归方程是可用的更优方程。用筛选变量的 *** 从有共线性的变量组中筛选出对因变量Y 影响显著的若干个变量来建立更优回归式, 不仅克服了共线性问题, 且使得回归式简化; 但有些实际问题希望建立Y与 给定自变量的回归式, 既使自变量有共线性问题, 如经济分析中的问题。下面三种 *** 都是针对这类问题而给出的 *** 。三、岭回归 *** 在经典多元线性回归分析中, 参数Β= ( Β0, Β1,. . . , Βm ) ′的最小二乘估计b= ( b0, b1,. . . , bm ) ′的均方误差为E{ ( b- Β) ′(b- Β) }, 当自变量存在多重共线关系时, 均方误差将变得很大, 故从均方误差的角度看, b 不是Β的好估计。减少均方误差的 *** 就是用岭回归估计替代最小二乘估计。设k≥0, 则称 b (k) = (X ′X + k I ) - 1 X ′Y为Β的岭回归估计。用岭回归估计建立的回归方程称为岭回归方程。当k= 0 时b (0) = b 就是Β的最小二乘估计。从理论上可以证明, 存在k> 0, 使得b (k) 的均方误差比b 的均方误差小; 但使得均方误差达到最小的k 值依赖于未知参数Β和Ρ 2 。因此k 值的确定是岭回归分析中关键。在实际应用中, 通常确定k 值的 *** 有以下几种: ① 岭迹图法, 即对每个自变量xi, 绘制随k 值的变化岭回归估计bi (k) 的变化曲线图。一般选择k 使得各个自变量的岭迹趋于稳定。②方差膨胀因子法, 选择k 使得岭回归估计的V IF< 10。③ 控制残差平方和法, 即通过限制b 1 5 处理多元线性回归中自变量共线- 性的几种 *** ( k ) 估计的残差平方和不能超过cQ (其中c> 1 为指定的常数, Q 为最小二乘估计的残差平方和) 来找出更大的k 值。下面通过例子来介绍岭回归分析。例2: 经济分析数据的岭回归分析 考察进口总额Y 与三个自变量: 国内总产值x1, 存储量x2, 总消费量x3 (单位均为十亿法郎) 有关。现收集了1949 年至1959 年共11 年的数据(见表2)。对表2 的数据试用REG 过程求进口总额与总产值、存储量和总消费量的定量关系式。 表2 经济分析数据序号 x1 x2 x3 Y 1 2 3 4 5 6 7 8 9 10 11 149. 3 161. 2 171. 5 175. 5 180. 8 190. 7 202. 1 212. 4 226. 1 231. 9 239. 0 4. 2 4. 1 3. 1 3. 1 1. 1 2. 2 2. 1 5. 6 5. 0 5. 1 0. 7 108. 1 114. 8 123. 2 126. 9 132. 1 137. 7 146. 0 154. 1 162. 3 164. 3 167. 6 15. 9 16. 4 19. 0 19. 1 18. 8 20. 4 22. 7 26. 5 28. 1 27. 6 26. 3 解 (1) 使用REG 过程来建立 Y 与x1、x2、x3 的回归关系式。以下 SA S 程序产生的完整输出结果这里省略了( 假设表 2 中的数据已生成 SA S 数据集D2)。 p roc reg data= d2 co rr; model y = x1 - x3 vif co llin; run; 由REG 过程得到的回归方程为: Y = - 10. 128 - 0. 051 x 1 + 0. 587 x 2 + 0. 287 x 3 变量x 1 的系数为负值, 这与实际情况不符。出现此现象的原因是变量x 1 与x 3 线性相关: Θ(x 1, x 3) = 0. 997。在MOD EL 语句后加上选项V IF 和COL L IN 产生的输出(省略了) 可以更清楚地看出x 1 和x 3 是多重相关的变量集。为了消除变量之间的多重共线关系, 岭回归就是一个有效的 *** 。 (2) 在MOD EL 语句的斜杠() 后由选项R IDGE = 指定一组k 值来完成岭回归分析。在 PL OT 语句中由选项R IDGEPL OT 要求绘制岭迹图。PROC R EG 语句的选项OU T ES T = OU T 2 要求把这一组k 值的岭回归估计送到输出数据集OU T 2 中, 选项OU TV IF 还要求把岭回归估计的方差膨胀因子( V IF ) 送到输出集中。以下SA S 程序的部分输出结果见输出2. 1 和输出2. 2。 p roc reg data= d2 outest= out2 graphics outvif; model y= x1- x3 ridge= 0. 0 to 0. 1 by 0. 01 0. 2 0. 3 0. 4 0. 5; p lo t ridgep lo t; p roc p rint data= out2; run; 输出2. 1 经济分析数据的岭迹图 2 5 数理统计与管理 20 卷 5 期 2000 年9 月 由岭迹图可以看出, 当k≥0. 02 后, 岭迹曲线趋于稳定。取k= 0. 02 的岭回归估计来建立岭回归方程, 由输出2. 2 可以写出岭回归方程式为: Y = - 8. 9277 + 0. 057 x 1 + 0. 59542 x 2 + 0. 127 x 3 这时得到的岭回归方程中回归系数的符号都有意义; 各个回归系数的方差膨胀因子均小于3 (见输出2. 2 中OBS 为6 的那一行) ; 岭回归方程的均方根误差(- RM SE- = 0. 57016) 虽比普通最小二乘回归方程的均方根误差( - RM SE- = 0. 48887) 有所增大, 但增加不多。输出2. 2 经济分析数据的输出数据集(部分) 四、主成分回归法主成分分析是将具有多重相关的变量集综合得出少数几个互不相关的综合变量——主成分的统计 *** 。主成分回归首先找出自变量集的主成分, 然后建立Y 与互不相关的前几个主成分的回归关系式, 最后还原为原自变量的回归方程式——主成分回归式。例3: 经济分析数据的主成分回归分析 解 使用REG 过程做主成分回归。在SA SSTA T 软件的6112 版本中, 用REG 过程提供的选项可完成主成分回归的计算。SA S 程序如下: p roc reg data= d2 outest= out3 ; model y= x1- x3 pcom it= 1, 2 outvif; p roc p rint data= out3; run; 在MODEL 语句的斜线() 后通过选项PCOM IT = 1, 2 表示要求删去最后面(即最不重要) 的1 个或2 个主成分之后, 用前面m - 1 个主成分或前面m - 2 个主成分( m 为自变量的个数, 此例中m = 3) 进行主成分回归。主成分回归的结果存放在SA S 数据集OU T3 中。由输出3. 1 可以得出删去第三个主成分(PCOM IT= 1) 后的主成分回归方程(见输出3. 1 中OBS 为3 的那一行) 为 Y= - 9. 1301+ 0. 07278 x1+ 0. 60922 x2+ 0. 10626 x3 输出3. 1 经济分析数据主成分回归的结果 这个主成分回归方程中回归系数的符号都是有意义的; 各个回归系数的方差膨胀因子均小于1. 1 (见输出3. 1 中OBS 为2 的那一行) ; 主成分回归方程的均方根误差( - RM SE- = 0. 55) 虽比普通回归方程的均方根误差( - RM SE- = 0. 48887) 有所增大, 但增加不多。 3 5 处理多元线性回归中自变量共线- 性的几种 *** 五、偏最小二乘回归法偏最小二乘( PL S ) 回归是工业应用中用于软建模的流行 *** 。当多个因变量间以及多个自变量间存在严重的多重相关时, PL S 是构造预测模型的一种有效 *** 。偏最小二乘回归的基本作法是首先在自变量集中提取之一潜因子 t1 ( t1 是x 1, x 2, …, xm 的线性组合, 且尽可能多地提取原自变量集中的变异信息, 比如之一主成分) ; 同时在因变量集中也提取之一潜因子u1, 并要求t1 与u1 相关程度达更大。然后建立因变量Y 与 t1 的回归, 如果回归方程已达到满意的精度, 则算法终止。否则继续第二轮潜在因子的提取, 直到能达到满意的精度为止。若最终对自变量集提取l 个潜因子 t1, t2, …, tl , 偏最小二乘回归将通过建立Y与t1, t2, …, tl 的回归式, 然后再表示为Y 与原自变量的回归方程式。 SA S S TA T 软件6. 12 版本提供一个试验性过程PL S (在SA S 系统8. 0 版本中PL S 已作为正式过程提供给用户) 可完成偏最小二乘回归。以下仍以经济分析数据为例介绍偏最小二乘回归。例4: 经济分析数据的偏最小二乘回归分析 解 使用PL S 过程做偏最小二乘回归。以下SA S 程序中选项M ETHOD= 规定抽取因子的 *** 为SIM PL S, 这是一个比标准PL S 更有效的算法; 选项CV = ON E 要求用删去一个观测的交叉确认 *** 决定抽取潜在因子的个数; OU TMODEL = 命名存放模型信息的输出数据集为O454 (输出的部分结果见输出4. 1)。 p roc p ls data= d2 outmodel= out4 cv= one method= simp ls ; model y= x1- x3 ; p roc p rint data= out4; run; 输出4. 1 经济分析数据偏最小二乘回归的结果 输出4. 1 的之一部分给出抽取潜在变量的个数及相应的用于度量拟合效果的预测残差平 4 5 数理统计与管理 20 卷 5 期 2000 年9 月方和( PRESS ) 的均方根值, 并指出在L = 2 时预测残差平方和的均方根达最小。输出的第二部分给出之一、二个潜在变量所解释的变差的百分数(包括自变量和因变量两方面) ; 输出的第三部分给出所拟合的模型的信息(数据集OU T4 的内容)。其中OBS 为2 和3 的行给出自变量和因变量的均值和标准差; OBS 为7 的行给出抽取二个潜在因子时的偏最小二乘估计, 由估计值可以写出标准化回归方程为( Y 和xζ表示Y 和x 的标准化变量) : Y = 0. 477 x 1 + 0. 2212 x 2 + 0. 486 x 3 用原始变量可表示为 Y = - 8. 2486 + 0. 0677 x 1 + 0. 6094 x 2 + 0. 1070 x 3 以上偏最小二乘回归方程中回归系数的符号都是有意义的。偏最小二乘回归的均方根误差 (0. 5872) 比普通最小二乘回归的均方根误差(- RM SE- = 0. 48887) 有所增大, 但增加不多。偏最小二乘回归对研究很多因变量及很多自变量的相依关系时更能显示其特点, 此例变量个数少, 故没能看出太多的优点。

多元线性回归模型的基本原理包括哪些内容

多元线性回归分析模型中估计系数的 *** 是:多元线性回归分析预测法多元线性回归分析预测法:是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的 *** 。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。多元线性回归预测模型一般公式为:多元线性回归模型中最简单的是只有两个自变量(n=2)的二元线性回归模型,其一般形式为:下面以二元线性回归分析预测法为例,说明多元线性回归分析预测法的应用。二元线性回归分析预测法,是根据两个自变量与一个因变量相关关系进行预测的 *** 。二元线性回归方程的公式为:式中::因变量;x1,x2:两个不同自变量,即与因变量有紧密联系的影响因素。a,b1,b2:是线性回归方程的参数。a,b1,b2是通过解下列的方程组来得到。二元线性回归预测法基本原理和步骤同一元线性回归预测法没有原则的区别,大体相同。“多元线性回归分析预测法”百度百科链接:/view/1338395.htm

SPSS多元线性回归输出结果的详细解释

SPSS多元线性回归输出结果的详细解释先说一句题外话,如果当年在大学里数理统计等课程结合SPSS,SAS,R等软件来讲,应该效果会好很多。最近
SPSS多元线性回归输出结果的详细解释
先说一句题外话,如果当年在大学里数理统计等课程结合SPSS,SAS,R等软件来讲,应该效果会好很多。
最近做了一些用SPSS进行线性回归的实验,还是感觉很多细节把握不好,这里结合我的实验结果,以及网上别人的介绍总结一下,先贴几张SPSS的输出:
下面简单解释一下这三张图中的结果:
之一个表模型汇总表中,R表示拟合优度(goodness of fit),它是用来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。调整的R平方比调整前R平方更准确一些,图中的最终调整R方为0.550,表示自变量一共可以解释因变量55%的变化(variance),另外,由于使用的是StepWise Linear Regression (SWLR),分析——回归——线性——“ *** ”选择“逐步”,所以模型1、2、3的R方逐渐增大,标准误差逐渐减小。
(据网友的介绍:一般认为,拟合优度达到0.1为小效应(R方0.01),0.3为中等R方0.09),0.5为大(R方0.25),这是针对自然科学的一般界限。)
第二个表Anova表示方差分析结果,主要看F和sig值两个,F值为方差分析的结果,是一个对整个回归方程的总体检验,指的是整个回归方程有没有使用价值(与随机瞎猜相比),其F值对应的Sig值小于0.05就可以认为回归方程是有用的。另外,从F值的角度来讲:F的值是回归方程的显著性检验,表示的是模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著做出推断。若F>Fa(k,n-k-1),则拒绝原假设,即认为列入模型的各个解释变量联合起来对被解释变量有显著影响,反之,则无显著影响。
这里简单对Fa(k,n-k-1)进行一下解释,k为自变量个数,n为样本容量,n-k-1为自由度。对于我的实验中的情况来讲,k=3,样本容量为146,所以查表的时候应该差Fa(3,142),一般数理统计课本中都有F分布表,a表示的显著性水平(一般取0.05),但我们手头不一定会有课本,就需要借助于excel来查F表,打开excel,在公式区输入:=FINV(0.05,3,142),在单元格中即出现2.668336761,表中的F值显著大于这个值,则认为各个解释变量对因变量有显著影响。
需要注意的是,方差分析是对多个自变量的总体检验,而不是单个自变量(单个自变量在系数表中,为单样本T检验),这就是第三个表回归系数表中的内容。
系数表格列出了自变量的显著性检验结果(使用单样本T检验),最后一列为T检验的sig,表中均小于0.05,说明自变量对因变量具有显著影响,B表示各个自变量在回归方程中的系数,负值表示IPGF这个自变量对因变量有显著的负向影响,但是由于每个自变量的量纲和取值范围不同,基于B并不能反映各个自变量对因变量影响程度的大小,这时候我们就要借助标准系数。目前表格中的“试用版”实际上是Beta的意思,此时数值越大表示对自变量的影响更大。
从这个分析过程来看,这个实验结果还挺理想的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。


本文链接:http://www.370seo.com/21287.html

“多元回归分析介绍(什么是分层逐步多元回归分析?)” 的相关文章

12星座最喜欢跟爱人当吃货的(12星座吃货语录)

12星座最喜欢跟爱人当吃货的(12星座吃货语录)

本文共计7109个文字,预计阅读时间需要23分33秒,由作者编辑整理创作于2023年08月10日 09点35分51秒。12星座最喜欢跟爱人当吃货的 12星座吃货语录 1、狮子座:狮子前一天订了最高级的餐厅最贵的位子请妈妈吃饭,表面上淡定从容无比豪迈,内心已经为钱包君默默哭泣许久。 2、巨蟹座:...

初一负数加减法计算题怎么做(正负数加减法计算题100)

本文共计2819个文字,预计阅读时间需要9分15秒,由作者编辑整理创作于2023年08月12日 13点44分28秒。初一负数加减法计算题怎么做 比如 -1+-1=-1-1=-2-1+2=11--2=3正数加负数就用正数减负数负数减负数就相加正数减负数就相加以此类推正负数加减法计算题100正负数...

与往事干杯歌词 与往事干杯歌词是什么(跟往事干杯的歌词内容)

与往事干杯歌词 与往事干杯歌词是什么(跟往事干杯的歌词内容)

本文共计1459个文字,预计阅读时间需要4分43秒,由作者编辑整理创作于2023年08月13日 00点22分44秒。与往事干杯歌词 与往事干杯歌词是什么 1、经过了许多事 你是不是觉得累 这样的心情 我曾有过几回 也许是被人伤了心 也许是无人可了解 现在的你我想一定 很疲惫 人生际遇...

党的十八大选出多少名中央委员?候补中央委员多少名?

党的十八大选出多少名中央委员?候补中央委员多少名?

本文共计948个文字,预计阅读时间需要3分0秒,由作者编辑整理创作于2023年08月13日 01点58分30秒。党的十八大选出多少名中央委员?候补中央委员多少名? 党的十八大选出中央委员205人,171名候补委员组成的十八届中央委员会,十八届中央纪律检查委员会委员130名。 中央委员和国务委员那个大...

梦醒时分是什么意思数字几(歌曲梦醒时分什么意思?)

本文共计1044个文字,预计阅读时间需要3分20秒,由作者编辑整理创作于2023年08月13日 16点43分33秒。梦醒时分是什么意思数字几 梦醒时分本意指的是:一个人早上刚刚睡醒的时刻。更多时候用来表述的是:一个人深陷在一段感情当中突然醒悟的那一刻。梦醒十分八分醉,四海升平奏高歌。一般指的是数字8...

纳兰性德饮水词为最吗(纳兰性德《饮水词》全部)

本文共计11308个文字,预计阅读时间需要37分32秒,由作者编辑整理创作于2023年08月14日 01点23分58秒。纳兰性德饮水词为最吗是的二十四岁时,纳兰性德把自己的词作编选成集,名为《侧帽词》,康熙十七年(1678年)又委托顾贞观在吴中刊成 《饮水词》,取自宋朝岳珂《桯史·记龙眠海会图》“至...