教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 高等教育 >

相关性分析回归分析

来源:网络收集 时间:2026-02-25
导读: 数学建模 第三讲相关分析、回归分析 数学建模 客观事物之间的关系函数关系:指两事物之间的一种一一对应的 关系,如商品的销售额和销售量之间的关 系。 相关关系(统计关系):指两事物之间的一 种非一一对应的关系,例如家庭收入和支 出、子女身高和父母身高之

数学建模

第三讲相关分析、回归分析

数学建模

客观事物之间的关系函数关系:指两事物之间的一种一一对应的 关系,如商品的销售额和销售量之间的关 系。 相关关系(统计关系):指两事物之间的一 种非一一对应的关系,例如家庭收入和支 出、子女身高和父母身高之间的关系等。 相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间 相关关系的数量分析方法。

数学建模

问题的提出

对于现实世界,不仅要知其然,而且 要知其所以然。顾客对商品和服务的 反映对于企业是至关重要的,但是仅 仅有满意顾客的比例是不够的;商家 希望了解什么是影响顾客观点的因素, 及这些因素如何起作用。 类似地,学校不能仅仅知道大学英语 四级的通过率,而且想知道什么变量 影响通过率,以及如何影响。

数学建模

问题的提出

发现变量之间的统计关系,并且 用此规律来帮助我们进行决策才 是统计实践的最终目的。 一般来说,统计可以根据目前所 拥有的信息(数据)来建立人们 所关心的变量和其他有关变量的 关系。这种关系一般称为模型 (model)。

数学建模

问题的提出

假如用Y表示感兴趣的变量,用X表示其 他可能与Y有关的变量(X也可能是若干 变量组成的向量)。则所需要的是建立 一个函数关系Y=f(X)。 这里Y称为因变量或响应变量 (dependent variable, response variable),而X称为自变 量,也称为解释变量或协变量(independent variable, explanatory variable, covariate) 。建立这种关系的过程就叫做

回归(regression)。

数学建模

问题的提出

一旦建立了回归模型,除了对变量的 关系有了进一步的定量理解之外,还 可以利用该模型(函数)通过自变量 对因变量做预测(prediction)。 这里所说的预测,是用已知的自变量 的值通过模型对未知的因变量值进行 估计;它并不一定涉及时间先后。 先看几个后面还要讨论的数值例子。

数学建模

问题的提出

例1.有50个从初中升到高中的学生。 为了比较初三的成绩是否和高中 的成绩相关,得到了他们在初三 和高一的各科平均成绩(数据在 highschool.txt) 。这两个成绩的散点 图展示在下中。

数学建模

50名同学初三和高一成绩的散点图100 有个上升趋势;即初三时成绩相对较高 的学生,在高一时的成绩也较高。 90

80

70

60

但对于具体个人来说,大约有一半的学生的 40 高一平均成绩比初三时下降,而另一半没有 40 50 60 70 80 90 100 110 变化或有进步初三 成绩

一 绩 高 成

50

数学建模

问题的提出

目前的问题是怎么判断这两 个变量是否相关、如何相关 及如何度量相关? 能否以初三成绩为自变量, 高一成绩为因变量来建立一 个回

归模型以描述这样的关 系,或用于预测。

数学建模

问题的提出

该数据中,除了初三和高一的成 绩之外,还有一个定性变量(没 有出现在上面的散点图中)。它 是学生在高一时的家庭收入状况; 它有三个水平:低、中、高,分 别在数据中用1、2、3表示。

数学建模

为研究家庭收入情况对学生成绩变 化的影响,下面点出两个盒形图, 左边一个是不同收入群体的高一成 绩的盒形图,右边一个是不同收入 群体的高一和初三成绩之差的盒形 图。110 100 90 80 70 60 30 20

一 绩 初 成 之 高 成 与 三 绩 差

10

0

-10

可以看出收入高低对高一成绩稍有影响,但 不如收入对成绩的变化(高一和初三成绩之 差)的影响那么明显。50 40 3039 25

一 绩 高 成

-20

-30

N=

11

27

12

N=

11

27

12

1

2

3

1

2

3

家庭 收入

家庭 收入

数学建模

问题的提出

到底学生在高一的家庭收入对成 绩有影响吗?是什么样的影响? 是否可以取初三成绩(这是定量 变量)或(和)家庭收入(定性 变量)为自变量,而取高一成绩 为因变量,来建立一个描述这些 变量之间关系的回归模型呢?

数学建模

问题的提出

例2 这是200个不同年龄和性别的人对某 项服务产品的认可的数据(logi.txt)。 这里年龄是连续变量,性别是有男和女 (分别用1和0表示)两个水平的定性变 量,而变量观点则为包含认可(用1表 示)和不认可(用0表示)两个水平的 定性变量(见下页数据)。 想要知道的是年龄和性别对观点有没有 影响,有什么样的影响,以及能否用统 计模型表示出这个关系。

数学建模

数学建模

年龄和观点的散点图(左)和性别与观点 的条形图;

年龄和观点的散点图1.2

120

-.2 10 20 30 40 50 60 70 80

Count

点 0为 可 1为 认 ) 观 ( 认 , 不 可

100

1.080

.8

.6

60

.440

.2

OPINIO N0.020 .00 0 .00 1.00 1.00

年龄

性 别 ( 0:女 , 1:男 )

数学建模

定量变量的相关

如果两个定量变量没有关系,就 谈不上建立模型或进行回归。但 怎样才能发现两个变量有没有关 系呢? 最简单的直观办法就是画出它们 的散点图。下面是四组数据的散 点图;每一组数据表示了两个变 量x和y的样本。

数学建模

(a)

不相关y

正线性相关y -1 0 1 2

(b)

-1

0

1

2

-2

-3

-2

-1 x

0

1

2

-2

-2

-1 x

0

1

2

负线性相关2 1 y 0

(c)

相关但非线性相关(d)y 4 0 2-3

-2

-1

-2

-1

0 x

1

2

6

8

-2

-1

0 x

1

2

3

数学建模

定量变量的相关

但如何在数量上描述相关呢?下面引进几种 对相关程度的度量。 Pearson 相 关 系 数 ( Pearson’s correlation coefficient)又叫相关系数或线性相关系数。 它一般用字母r表示。它是由两个变量的样本 取值得到,这是一个描述线性相关强度的量, 取值于-1和1

之间。当两个变量有很强的线性 相关时,相关系数接近于1(正相关)或-1 (负相关),而当两个变量不那么线性相关 时,相关系数就接近0。

数学建模

定量变量的相关

Kendall t 相关系数(Kendall’s t)这里的 度量原理是把所有的样本点配对(如果每 一个点由x和y组成的坐标(x,y)代表,一对 点就是诸如(x1,y1)和(x2,y2)的点对),然后 看每一对中的x和y的观测值是否同时增加 (或减少)。比如由点对(x1,y1)和(x2,y2), 可以算出乘积(x2-x1)(y2-y1)是否大于0;如 果大于0,则说明x和y同时增长或同时下 降,称这两点协同(concordant);否则 就是不协同。如果样本中协同的点数目多, 两个变量就更加相关一些;如果样本中不 协同(discordant)的点数目多,两个变量 就不很相关。

…… 此处隐藏:1387字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关性分析回归分析.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/124368.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)