首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有没有有效的方法来建立多项式特征的非线性回归模型?

有没有有效的方法来建立多项式特征的非线性回归模型?
EN

Data Science用户
提问于 2019-04-24 03:52:49
回答 1查看 81关注 0票数 1

我试图了解犯罪频度对某些地区房价的影响。为此,我从芝加哥犯罪数据和zillow房地产数据开始。我想了解房价与犯罪频度之间的关系,以及某些地区的前五大犯罪。最初,我为这个规范建立了模型,但它对我来说并不是很有意义。有人能告诉我我该怎么做吗?有没有有效的方法来训练某些地区房价与犯罪频度之间潜在关系的回归模型?有什么启发性的想法来继续前进吗?

示例数据片段:

以下是合并后的数据,其中包括年度房价和某些地区的最高犯罪类型:

这里是可复制的示例数据片段

我的尝试

因此,我试图用上述可重复的示例数据来拟合回归模型:

代码语言:javascript
复制
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

regDF = pd.read_csv('exampleDF')

X_feats = regDF.drop(['Avg_Price_2012'], axis=1)
y_label = regDF['Avg_Price_2012'].values

sc_x = StandardScaler()
sc_y = StandardScaler()
X = sc_x.fit_transform(X_feats)
#y= sc_y.fit_transform(y_label)
y = sc_y.fit_transform(y_label .reshape(-1,1)).flatten()
regModel = LinearRegression()
regModel.fit(X, y)
regModel.coef_

但是对我来说,上面的模型没有那么高的效率,需要做更多的事情。我认为对于这些多项式特征,我必须使用非线性回归模型,但我不确定是否能做到这一点。

有人能告诉我如何建立正确的模型来预测某些地区的犯罪类型和频率的房价吗?知道吗?谢谢

目标

我想建立一个回归模型,根据特定地区的犯罪频度和类型来预测房价。我怎样才能在特定地区建立房价与犯罪之间的关系模型?有什么想法吗?

EN

回答 1

Data Science用户

发布于 2019-04-24 16:31:28

你可能发现自己陷入了数据科学中最有趣的问题之一,这部分更像是艺术而不是科学。

我将给你一些想法,可以给你一些如何解决这个问题的提示:

  1. 价格、薪水和其他变量有很多次关于“累加物”的信息,它们的分布是向左倾斜的(许多人有一点,少数人有很多),现在要做的是取对数。您的新变量应该是Ln(Y),这样,您将缩小avg_price较大的区域和avg_price较低的区域之间的差距。当这种情况发生时,您会发现Y变量的分布不那么偏斜,类似于正态分布。
  2. 采用对数的思想也适用于您拥有的X变量(因为犯罪也会在某些区域积累)。
  3. 在运行线性回归时,不需要标准调用,因为变量的相对性在回归中没有影响:

回归Y = \alpha_0 + \alpha_1X_1+...+\alpha_nX_n (无缩放)在数学上等价于Y = \beta_0 + \beta_1Z_1+...+\beta_nZ_n (缩小)

  1. 如果您想使用其他模型,您的数据似乎适合它,也许回归树或XGBoost可以很好地解决您的问题。

我敢打赌,在avg_price中获得对数,在一些外生变量中,而不是变小,会得到更好的结果。

代码语言:javascript
复制
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

regDF = pd.read_csv('exampleDF')

X_feats = regDF.drop(['Avg_Price_2012'], axis=1)
y_label = regDF['Avg_Price_2012'].values

X = log(X_feats)
y = log(y_label.reshape(-1,1)).flatten()
regModel = LinearRegression()
regModel.fit(X, y)
regModel.coef_
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/50816

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档