我的编程空间,编程开发者的网络收藏夹
学习永远不晚

【数学建模】-多元线性回归分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

【数学建模】-多元线性回归分析

文章目录


学习来源:清风老师
回归分析的任务就是,通过研究 自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去 预测Y的目的。
常见的回归分析有五类: 线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。

回归的思想

回归分析:研究X和Y之间相关性的分析。

相关性

相关性 ≠ 因果性

在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系

因变量Y
  • 经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
  • P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
  • 消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
  • 管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
  • 研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,
    现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)
自变量X

回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

回归分析的使命

使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
第一、识别重要变量;
第二、判断相关性的方向;
第三、要估计权重(回归系数)。

回归分析的分类

在这里插入图片描述

数据的分类

横截面数据:在某一时点收集的不同对象的数据。
例如:
(1)我们自己发放问卷得到的数据
(2)全国各省份2018年GDP的数据
(3)大一新生今年体测的得到的数据
时间序列数据:对同一对象在不同时间连续观察所取得的数据
例如:
(1)从出生到现在,你的体重的数据(每年生日称一次)。
(2)中国历年来GDP的数据。
(3)在某地方每隔一小时测得的温度数据。
面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
例如:
2008‐2018年,我国各省份GDP的数据。
在这里插入图片描述
数据的收集

一元线性回归

在这里插入图片描述

对于线性的理解

在这里插入图片描述

回归系数的解释

在这里插入图片描述

内生性的探究

在这里插入图片描述

包含了所有与y相关,但未添加到回归模型中的变量
如果这些变量和我们已经添加的自变量相关,则存在内生性

内生性的蒙特卡罗模拟

在这里插入图片描述

%% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差times = 300;  % 蒙特卡洛的次数R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数for i = 1: times    n = 30;  % 样本数据量为n    x1 = -10+rand(n,1)*20;   % x1在-1010上均匀分布,大小为30*1    u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数    x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数    % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。    u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布    y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y    k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k    K(i) = k;    u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2    r = corrcoef(x1,u);  % 2*2的相关系数矩阵    R(i) = r(2,1);endplot(R,K,'*')xlabel("x_1和u'的相关系数")ylabel("k的估计值")

在这里插入图片描述

核心解释变量和控制变量

无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。
这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的
一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也
放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

回归系数的解释

在这里插入图片描述

什么时候取对数?

目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
(2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
(3)比例变量,如失业率、参与率等,两者均可;
(4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)
取对数的好处:(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取
了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。

四类模型回归系数的解释

在这里插入图片描述
在这里插入图片描述

特殊的自变量:虚拟变量X

在这里插入图片描述
在这里插入图片描述

多分类的虚拟变量设置

在这里插入图片描述

含有交互项的自变量

在这里插入图片描述

回归实例

现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。
请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。

  1. 以评价量为因变量,分析其它变量和评价量之间的关系;
  2. 以评价量为因变量,研究影响评价量的重要因素。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

数据的描述性统计

定量数据

在这里插入图片描述

定性数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

// 按键盘上的PageUp可以使用上一次输入的代码(Matleb中是上箭头)// 清除所有变量clear// 清屏 和 matlab的clc类似cls // 导入数据(其实是我们直接在界面上粘贴过来的,我们用鼠标点界面导入更方便 本条请删除后再复制到论文中,如果评委老师看到了就知道这不是你写的了)// import excel "C:\Users\hc_lzp\Desktop\数学建模视频录制\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrowimport excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow// 定量变量的描述性统计summarize 团购价元 评价量 商品毛重kg// 定性变量的频数分布,并得到相应字母开头的虚拟变量tabulate 配方,gen(A)tabulate 奶源产地 ,gen(B)tabulate 国产或进口 ,gen(C)tabulate 适用年龄岁 ,gen(D)tabulate 包装单位 ,gen(E)tabulate 分类 ,gen(F)tabulate 段位 ,gen(G)// 下面进行回归regress 评价量 团购价元 商品毛重kg// 下面的语句可帮助我们把回归结果保存在Word文档中// 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)// ssc install reg2docx, all replace// 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。est store m1reg2docx m1 using m1.docx, replace// *** p<0.01  ** p<0.05 * p<0.1// Stata会自动剔除多重共线性的变量regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4est store m2reg2docx m2 using m2.docx, replace// 得到标准化回归系数regress 评价量 团购价元 商品毛重kg, b // 画出残差图regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4rvfplot // 残差与拟合值的散点图graph export a1.png ,replace// 残差与自变量团购价的散点图rvpplot  团购价元graph export a2.png ,replace// 为什么评价量的拟合值会出现负数?// 描述性统计并给出分位数对应的数值summarize 评价量,d// 作评价量的概率密度估计图kdensity 评价量 graph export a3.png ,replace// 异方差BP检验estat hettest ,rhs iid// 异方差怀特检验estat imtest,white// 使用OLS + 稳健的标准误regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, rest store m3reg2docx m3 using m3.docx, replace// 计算VIFestat  vif// 逐步回归(一定要注意完全多重共线性的影响)// 向前逐步回归(后面的r表示稳健的标准误)stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pe(0.05)// 向后逐步回归(后面的r表示稳健的标准误)stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pr(0.05)// 向后逐步回归的同时使用标准化回归系数(在r后面跟上一个b即可)stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r b pr(0.05)

Excel中数据透视表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

11个指标的总体情况介绍在这里插入图片描述

Stata回归的语句

在这里插入图片描述
在这里插入图片描述

拟合优度 R2较低怎么办

(1)回归分为解释型回归预测型回归
预测型回归一般才会更看重𝑅2
解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
(2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
(3)数据中可能有存在异常值或者数据的分布极度不均匀。
在这里插入图片描述

标准化回归系数

在这里插入图片描述

在这里插入图片描述

来源地址:https://blog.csdn.net/SUOLONG1/article/details/124775550

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

【数学建模】-多元线性回归分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

rstudio多元线性回归怎么构建

在RStudio中进行多元线性回归可以使用lm()函数来构建模型。以下是构建多元线性回归模型的步骤:1. 准备数据:将要用于回归的自变量和因变量整理为一个数据框或数据矩阵。2. 使用lm()函数构建模型:使用lm()函数来拟合多元线性回归模
2023-08-18

使用R语言与多元线性回归分析计算的示例

这篇文章主要为大家展示了“使用R语言与多元线性回归分析计算的示例”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“使用R语言与多元线性回归分析计算的示例”这篇文章吧。计算实例例 6.9 某大型牙膏制
2023-06-20

免费Python机器学习课程二:多元线性回归

线性回归可能是最简单的机器学习算法。对于初学者来说非常好,因为它使用简单的公式。因此,这对学习机器学习概念很有帮助。在本文中,我将尝试逐步解释多元线性回归。

Python实现多元线性回归模型的方法详解

多元线性回归是一种广泛应用于数据分析和机器学习的统计模型。它通过使用多个自变量来预测一个或多个因变量的值。在Python中,我们可以使用许多不同的库和框架来实现多元线性回归模型,例如NumPy、Pandas和Scikit-Learn等。下面
Python实现多元线性回归模型的方法详解
2024-01-24

数据分析算法---线性回归(初识)

最近在学习数据分析线性回归算法时,产生了很多疑问。作为初学者,我认为应该先从基本概念上进行一些深度理解。下面将我的一些思考总结如下:        线性回归模型为: (1)        其中ε是剩余误差,假设它服从的是高斯分布,然后因此就
2023-01-30

Python中怎么创建线性回归机器学习模型

Python中怎么创建线性回归机器学习模型,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。线性回归机器学习模型1.要使用的数据集由于线性回归是我们在本文中学习的第一个机器学习模型
2023-06-16

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录