数理统计-作业一

来源：网络收集时间：2026-05-23

导读：以我国自1989至2004年连续16年的农业总产值为因变量,初步选取了6个影响因素,利用逐步回归法,对各影响因素进行了筛选,最终确定了其“最优”回归方程。数理统计大作业摘要：本文首先简单介绍了回归分析及相关关系的定义，然后以多元线性回归为重点，介绍了

以我国自1989至2004年连续16年的农业总产值为因变量,初步选取了6个影响因素,利用逐步回归法,对各影响因素进行了筛选,最终确定了其“最优”回归方程。

数理统计大作业

摘要：本文首先简单介绍了回归分析及相关关系的定义，然后以多元线性回归为重

点，介绍了多元线性回归自变量选择的逐步回归法，最后以我国自1989至2004年连续16年的农业总产值为因变量，初步选取了6个影响因素，利用逐步回归法，对各影响因素进行了筛选，最终确定了其“最优”回归方程。

关键字：多元线性回归；农业总产值；逐步回归法 1 引言

自然界中任何事物都是普遍联系的，客观事物之间往往都存在着某种程度的关联关系。例如在研究经济现象时就会发现，各种经济现象之间客观上都存在着有机的联系，相互依存、相互制约、相互作用[1]。为了研究变量之间的相关关系，人们常用回归分析的方法。回归分析是数理统计中一种常用方法。

1.1 概述

变量之间的依存关系可以分为两类。一类被称为确定性关系，也就是高等数学中的函数关系；还有一类被称为非确定性关系，也称为相关关系。这种变量之间的不确定关系正是我们研究的对象。

相关关系中的变量又可以分为两类，一类相当于函数关系中的自变量，这类变量可以赋予一个需要的值，或能够取得一个可观测但不能人为控制的值，这类变量称为自变量或预报变量。预报变量的变化能波及另一些变量，这样的变量称为因变量，或响应变量。在一元线性相关的条件下，常用相关系数来衡量两个变量之间相关关系的相关方向和相关的密切程度[2]。

通常，为了研究一个或几个变量与一个因变量之间的相关关系，需要建立相应的数学模型并进行统计分析，这就是本文中所说的回归分析。只有一个变量的回归分析叫做一元回归分析；多于一个自变量的回归分析叫做多元回归分析。

1.2 多元线性回归

在实际问题中，某一因素的变化往往受到许多因素的影响，要找出这些因素之间的数量关系就是多元回归分析的任务。由于许多非线性的情形都可以通过变换转化为线性回归

以我国自1989至2004年连续16年的农业总产值为因变量,初步选取了6个影响因素,利用逐步回归法,对各影响因素进行了筛选,最终确定了其“最优”回归方程。

来处理，因此，一般只要能处理多元线性回归问题就足够了。

1.2.1 多元线性回归模型

如果随机变量y与m（m 2）个普通变量x1,x2,…,xm有关，且满足关系式：

①式

其中，β0,β1,β2,…,βm,σ2是与 x1,x2,…,xm无关的未知参数，ε是不可观测的随机变量，ε~N(0,σ2IN)。

称①式为m元理论线性回归模型，称β0,β1,β2,…,βm为回归系数，称x1,x2,…,xm为回归因子或设计因子，简称因子。βi(i=1,2,…,m)实际上反映了因子xi(i=1,2,…,m)对观测值y的贡献大小，因此也称βi(i=1,2,…,m)为因子xi(i=1,2,…,m)的效应。

通过对回归系数βi(i=1,2,…,m)进行最小二乘估计后，可以得到m元经验回归方程为：

y=β0+β1x1+β2x2+…+βmxm ②式

也称②式为m元线性回归方程。β0为回归常数，也称回归系数，β1,β2,…,βm称为回归系数。

1.2.2 逐步回归法

在多元线性回归分析中，由于有多个自变量，回归自变量的选择无疑是建立回归模型的一个极为重要的问题。

通常，一方面，为获取全面信息总希望模型中包括的自变量尽可能多；另一方面，考虑到获取很多自变量的观测值的费用和实际困难，则希望模型中包含尽可能少而且重要的变量。因此，人们常根据某种规则对自变量进行筛选。其中，最常用的方法是逐步回归法。在介绍逐步回归法的具体步骤之前，先要明确一些相关概念。

1）回归效果的显著性检验

以我国自1989至2004年连续16年的农业总产值为因变量,初步选取了6个影响因素,利用逐步回归法,对各影响因素进行了筛选,最终确定了其“最优”回归方程。

y与变量x1,x2,…,xm线性相关的密切程度可以用回归平方和U在总平方和Lyy中所占

的比例来衡量。称R=

为y关于 x1,x2,…,xm的样本复相关系数，R=为样本Lyy

决定系数。在多元线性回归的实际应用中，用复相关系数来表示回归方程对原有数据拟合程度的好坏。显然0 R 1，其越接近1，回归方程拟合程度越高。

2）偏F检验

检验某个自变量对y的影响是否显著的正规方法是偏F检验。设原回归方程（全模型）为：

y=β0+β1x1+β2x2+…+βi-1xi-1+βixi+βi+1xi+1+…+βmxm

去掉变量xi后的新回归方程（减模型）为：

^^^^^^^^

y=β0+β1x1+β2x2+…+βi-1xi-1+βi+1xi+1+…+βmxm

全模型的复相关系数的平方为R，减模型的复相关系数的平方为Ri2，定义

^^^^^^^

ΔRi2=R2-Ri2。若ΔRi2几乎为零，则说明xi对y没有显著影响，反之则表示xi对y有其

它变量不可替代的显著影响。故，检验假设：

H0:ΔRi2=0；H1:ΔRi2 0

当H0为真时，检验统计量为

βiΔRi2Fi==~F(1,n-m-1)

(1-R2)/(n-m-1)S2cii

对于给定显著性水平а，由样本计算出Fi的值，若Fi F1-α(1,n-m-1)，则拒绝H0，说明xi对y有显著影响，应在减模型中引入自变量xi；反之则应剔除xi，使之成为减模型。

偏F检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏F法进行检验的。

3) 逐步回归法的步骤

逐步回归法的基本思想是：将变量逐个引入，引入条件是该变量的偏F检验是显著的。

以我国自1989至2004年连续16年的农业总产值为因变量,初步选取了6个影响因素,利用逐步回归法,对各影响因素进行了筛选,最终确定了其“最优”回归方程。

同时，每引入一个新变量后又对老变量逐个检验，将变得不显著的变量从回归模型中剔除。具体步骤如下：

a 对m个自变量分别与y建立回归模型y=βi0+βi最大的那个值，比如FL1。

⑴如果FL1< F进，则计算结束，y与所有自变量均线性无关； ⑵如果FL1 F进，则引入xL1，建立回归方程

y=β0+β1

^(1)

(1)^

^(0)

对它们分别计算Fi，得Fi中xi，

xL1 。 ③式

b 建立y与自变量子集 {xL1 ,xi} (i L1) 的二元回归模型

y=βi0+βi1xL1 +βixi ④式

以④式为全模型，③式为减模型求Fi值，并取得Fi中最大的那个值，比如说FL2。 ⑴如果FL2< F进，则计算结束，这时建立的模型为③式； ⑵如果FL2 F进，则引入xL2，建立回归方程

^(0)

(0)

^(0)

y=β0+β1xL1 +β2 xL2 ⑤式

c 当引入xL2后，对xL1 做偏F检验，看xL1 是否需要剔除； ⑴如果FL1>F出，则不剔除xL1 ，并继续引入下一个变量； ⑵如果FL1 F出，则从④式中剔除xL1 ，再继续引入下一个变量。

重复上述步骤，直到所有模型外的变量都不能引入，模型内的变量都不能被剔除为止。

^(2)^(2)^(2)

2 解决问题的方法和计算结果

本文主要作了农业总产值的回归分析，选取了自1989年~2004年连续16年的农业总产值为因变量（数据来源于中国统计年鉴2005[3]），初步选取有效灌溉面积（千公顷）x1，化肥施用量（万吨）x2，农业机械总 …… 此处隐藏：5558字，全部文档内容请下载后查看。喜欢就下载吧 ……

数理统计-作业一.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wendang/2275889.html（转载请注明文章来源）

上一篇：口腔科管理规范。ppt
下一篇：人教版高中物理必修二教案：功