我试图了解犯罪频度对某些地区房价的影响。为此,我从芝加哥犯罪数据和zillow房地产数据开始。我想了解房价与犯罪频度之间的关系,以及某些地区的前五大犯罪。最初,我为这个规范建立了模型,但它对我来说并不是很有意义。有人能告诉我我该怎么做吗?有没有有效的方法来训练某些地区房价与犯罪频度之间潜在关系的回归模型?有什么启发性的想法来继续前进吗?
以下是合并后的数据,其中包括年度房价和某些地区的最高犯罪类型:

这里是可复制的示例数据片段
因此,我试图用上述可重复的示例数据来拟合回归模型:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd
regDF = pd.read_csv('exampleDF')
X_feats = regDF.drop(['Avg_Price_2012'], axis=1)
y_label = regDF['Avg_Price_2012'].values
sc_x = StandardScaler()
sc_y = StandardScaler()
X = sc_x.fit_transform(X_feats)
#y= sc_y.fit_transform(y_label)
y = sc_y.fit_transform(y_label .reshape(-1,1)).flatten()
regModel = LinearRegression()
regModel.fit(X, y)
regModel.coef_但是对我来说,上面的模型没有那么高的效率,需要做更多的事情。我认为对于这些多项式特征,我必须使用非线性回归模型,但我不确定是否能做到这一点。
有人能告诉我如何建立正确的模型来预测某些地区的犯罪类型和频率的房价吗?知道吗?谢谢
我想建立一个回归模型,根据特定地区的犯罪频度和类型来预测房价。我怎样才能在特定地区建立房价与犯罪之间的关系模型?有什么想法吗?
发布于 2019-04-24 16:31:28
你可能发现自己陷入了数据科学中最有趣的问题之一,这部分更像是艺术而不是科学。
我将给你一些想法,可以给你一些如何解决这个问题的提示:
回归Y = \alpha_0 + \alpha_1X_1+...+\alpha_nX_n (无缩放)在数学上等价于Y = \beta_0 + \beta_1Z_1+...+\beta_nZ_n (缩小)
我敢打赌,在avg_price中获得对数,在一些外生变量中,而不是变小,会得到更好的结果。
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd
regDF = pd.read_csv('exampleDF')
X_feats = regDF.drop(['Avg_Price_2012'], axis=1)
y_label = regDF['Avg_Price_2012'].values
X = log(X_feats)
y = log(y_label.reshape(-1,1)).flatten()
regModel = LinearRegression()
regModel.fit(X, y)
regModel.coef_https://datascience.stackexchange.com/questions/50816
复制相似问题