首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >线性回归

线性回归
EN

Data Science用户
提问于 2019-05-12 18:32:57
回答 2查看 495关注 0票数 4

我开始学习机器学习,首先提到的是线性回归方法的使用。基本上,我们有一堆数据点,我们想要拟合一条线,这样我们从这条线和实际数据点得到的误差就最小化了。

我理解这个理论,以及为什么我们会使用一些类似梯度搜索的方法来寻找全局最小点。我不明白的是,为什么要使用像梯度搜索或最小二乘算法这样复杂的方法,在介绍性统计中,给我们一个非常简单的-still计算,但谢天谢地没有部分导数--找到这条线的公式:

y=mx+b

对于m,我们有:

m = \frac{S_{xy}}{S_{xx}}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}

对于b,我们有:

b= \frac{1}{n}\left(\sum y_i-m\sum x_i\right)

i下标用于引用数据集中的每个xyXY条是平均值。n是集合中数据点的基数或#。

我是不是遗漏了什么?还是我试图在统计学中使用一种在机器学习世界中不允许的方法?

EN

回答 2

Data Science用户

发布于 2019-05-12 21:25:57

给出的例子是线性回归的一个非常琐碎的例子,但它仍然会导致计算问题。假设我们有传感器输入,我们想用它们来估计温度。假设传感器以每秒的速度测量100值。当您的系统运行一周时,您的参数估计(特别是和)会发生什么?

正如您所看到的,这个过程的问题是,我们必须在每个时间步骤执行所有的计算。关于一般线性回归

y_i = \boldsymbol{w}^T\boldsymbol{x}_i + \varepsilon_i

我们可以通过下面的公式来确定权重\hat{\boldsymbol{w}}的最小二乘估计\boldsymbol{w}

\hat{\boldsymbol{w}}=\left[\boldsymbol{X}^T\boldsymbol{X} \right]^{-1}\boldsymbol{X}^T\boldsymbol{y},

其中\boldsymbol{X}是数据矩阵,\boldsymbol{y}是所有观测输出的向量。如您所见,随着数据量的增加,数据矩阵\boldsymbol{X}将得到越来越多的行。另外,如果有一个非常高维的输入向量\boldsymbol{x},我们必须反演这个积,这将变得更加困难。直接计算从理论上看是很好的,但从实践的角度来说却是非常苛刻的。

为了防止这些庞大的计算,人们发明了不同的递归方法,如最小二乘(LMS)算法或递归最小二乘(RLS)算法。

为了了解直接计算和递归计算之间的区别,请看连续平均计算。

\bar{x}_N = \dfrac{1}{N}\sum_{n=1}^Nx_n
\text{direct: }\bar{x}_{N+1}=\dfrac{1}{N+1}\sum_{n=1}^{N+1}x_n
=\dfrac{N}{N+1}\left[\dfrac{1}{N}\sum_{n=1}^{N+1}x_n\right]
=\dfrac{N}{N+1}\left[\bar{x}_N+\dfrac{1}{N}x_{N+1}\right]
\implies \text{recursive: }\bar{x}_{N+1}=\dfrac{N}{N+1}\bar{x}_N+\dfrac{1}{N+1}x_{N+1}.

如果您已经计算了前面的意思,那么很明显,用递归公式计算下一个时间步骤要容易得多。

票数 2
EN

Data Science用户

发布于 2019-05-12 20:54:32

西蒙在评论中发布的链接确实提供了丰富的信息。然而,对于线性回归,最小平方残差之和(OLS)仍然很大,特别是在因果模型中。据我所知,许多程序(R,Stata)仍然使用(X‘X)^-1 X’y方法来解决线性回归问题。

通常,高级算法很难击败OLS。我认为OLS通常是一个好的(而且快速)的基准。另外,辅助性成分(β)也很容易理解。这样你就能学到很多你手头的问题。这是非常有帮助的。

如果你有时间,请看J. Wooldridge的“经济计量学入门:现代方法”。此外,“在R中应用的统计学习简介”也是一个很好的来源。

如果你是勇敢的,去罗素戴维森和詹姆斯G MacKinnon:计量经济学的理论和方法。

我看梯度体面很重要。但是,我认为,对基本统计有一个良好的认识,从长远来看,会有很大的回报。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/51846

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档