我正在对公寓的特点进行线性回归分析,然后预测公寓的价格。目前,我已经收集了我市13000套公寓的特色。我有23-25个特点,我不确定是否正常有这么多的功能在公寓价格预测。
我有以下特点:
区、小区、住宅小区、建筑年份、房屋建筑材料、房间数、楼层、总面积、居住面积、状况、地板材料、浴室类型、阳台、门类、固定线路、互联网连接类型、停车场、家具可用性、天花板高度、安全性。
有这么多的特性进行回归是正常的吗?这些特征是否适合于对公寓进行线性回归分析?也许减少特征的数量和消除一些由于冗馀而产生的特性更好?在我的例子中,大量的功能(公寓价格预测)是否会导致过度拟合?
发布于 2015-12-03 22:45:40
@stellasia,开局不错!
是的,有这么多特性是很常见的:抓住你认为可能需要的一切,然后让你的分析工具(或个人磨练)建议什么是不需要的。很难添加一些你没有的东西。
首先,您可以通过线性回归建模器来运行它。如果没有,则根据价格对每个特性运行相关系数;这样就可以消除那些接近0的特性(没有明显的影响)。
在此之后,对所有剩余的特性做一个完整的相关矩阵;那些在+1.00或-1.00附近的特征表示您可以消除这两个因素中的任何一个:它们彼此预测得非常好,所以您不需要两者兼而有之。
SKLearn很好。SciKit也是。如果您知道如何编写基本的矩阵方程,那么八度和MatLib是很好的。
我还可以推荐开源包TrustedAnalytics (我是该项目的软件负责人之一)。Python对于数据科学非常好,但它是一个大数据包:它位于其他您可能没有的工具之上。
发布于 2015-12-03 20:44:23
你是怎么找到这些特征的?您是否已经在您的数据集中运行了一个特征选择算法?我真的很怀疑。我不知道您已经遵循了哪些步骤,但是当开始一个机器学习问题时,您首先必须对您的数据有一些直觉:
https://stackoverflow.com/questions/34075553
复制相似问题