文章/答案/技术大牛

发布

问线性回归
EN

Data Science用户

提问于 2019-05-12 18:32:57

回答 2查看 495关注 0票数 4

我开始学习机器学习，首先提到的是线性回归方法的使用。基本上，我们有一堆数据点，我们想要拟合一条线，这样我们从这条线和实际数据点得到的误差就最小化了。

我理解这个理论，以及为什么我们会使用一些类似梯度搜索的方法来寻找全局最小点。我不明白的是，为什么要使用像梯度搜索或最小二乘算法这样复杂的方法，在介绍性统计中，给我们一个非常简单的-still计算，但谢天谢地没有部分导数--找到这条线的公式：

y=mx+b

对于m，我们有：

m = \frac{S_{xy}}{S_{xx}}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}

对于b，我们有：

b= \frac{1}{n}\left(\sum y_i-m\sum x_i\right)

i下标用于引用数据集中的每个x或y。X或Y条是平均值。n是集合中数据点的基数或#。

我是不是遗漏了什么？还是我试图在统计学中使用一种在机器学习世界中不允许的方法？

regression

learning

回答 2

Data Science用户

发布于 2019-05-12 21:25:57

给出的例子是线性回归的一个非常琐碎的例子，但它仍然会导致计算问题。假设我们有传感器输入，我们想用它们来估计温度。假设传感器以每秒的速度测量100值。当您的系统运行一周时，您的参数估计(特别是和)会发生什么？

正如您所看到的，这个过程的问题是，我们必须在每个时间步骤执行所有的计算。关于一般线性回归

y_i = \boldsymbol{w}^T\boldsymbol{x}_i + \varepsilon_i

我们可以通过下面的公式来确定权重\hat{\boldsymbol{w}}的最小二乘估计\boldsymbol{w}

\hat{\boldsymbol{w}}=\left[\boldsymbol{X}^T\boldsymbol{X} \right]^{-1}\boldsymbol{X}^T\boldsymbol{y},

其中\boldsymbol{X}是数据矩阵，\boldsymbol{y}是所有观测输出的向量。如您所见，随着数据量的增加，数据矩阵\boldsymbol{X}将得到越来越多的行。另外，如果有一个非常高维的输入向量\boldsymbol{x}，我们必须反演这个积，这将变得更加困难。直接计算从理论上看是很好的，但从实践的角度来说却是非常苛刻的。

为了防止这些庞大的计算，人们发明了不同的递归方法，如最小二乘(LMS)算法或递归最小二乘(RLS)算法。

为了了解直接计算和递归计算之间的区别，请看连续平均计算。

\bar{x}_N = \dfrac{1}{N}\sum_{n=1}^Nx_n

\text{direct: }\bar{x}_{N+1}=\dfrac{1}{N+1}\sum_{n=1}^{N+1}x_n

=\dfrac{N}{N+1}\left[\dfrac{1}{N}\sum_{n=1}^{N+1}x_n\right]

=\dfrac{N}{N+1}\left[\bar{x}_N+\dfrac{1}{N}x_{N+1}\right]

\implies \text{recursive: }\bar{x}_{N+1}=\dfrac{N}{N+1}\bar{x}_N+\dfrac{1}{N+1}x_{N+1}.

如果您已经计算了前面的意思，那么很明显，用递归公式计算下一个时间步骤要容易得多。

票数 2

Data Science用户

发布于 2019-05-12 20:54:32

西蒙在评论中发布的链接确实提供了丰富的信息。然而，对于线性回归，最小平方残差之和(OLS)仍然很大，特别是在因果模型中。据我所知，许多程序(R，Stata)仍然使用(X‘X)^-1 X’y方法来解决线性回归问题。

通常，高级算法很难击败OLS。我认为OLS通常是一个好的(而且快速)的基准。另外，辅助性成分(β)也很容易理解。这样你就能学到很多你手头的问题。这是非常有帮助的。

如果你有时间，请看J. Wooldridge的“经济计量学入门:现代方法”。此外，“在R中应用的统计学习简介”也是一个很好的来源。

如果你是勇敢的，去罗素戴维森和詹姆斯G MacKinnon:计量经济学的理论和方法。

我看梯度体面很重要。但是，我认为，对基本统计有一个良好的认识，从长远来看，会有很大的回报。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/51846

复制

相似问题

问线性回归
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问线性回归EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问线性回归
EN