文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习中大量的特征是不好的(回归)？

问机器学习中大量的特征是不好的(回归)？
EN

Stack Overflow用户

提问于 2015-12-03 20:28:49

回答 2查看 1.8K关注 0票数 0

我正在对公寓的特点进行线性回归分析，然后预测公寓的价格。目前，我已经收集了我市13000套公寓的特色。我有23-25个特点，我不确定是否正常有这么多的功能在公寓价格预测。

我有以下特点：

区、小区、住宅小区、建筑年份、房屋建筑材料、房间数、楼层、总面积、居住面积、状况、地板材料、浴室类型、阳台、门类、固定线路、互联网连接类型、停车场、家具可用性、天花板高度、安全性。

有这么多的特性进行回归是正常的吗？这些特征是否适合于对公寓进行线性回归分析？也许减少特征的数量和消除一些由于冗馀而产生的特性更好？在我的例子中，大量的功能(公寓价格预测)是否会导致过度拟合？

regression

linear-regression

feature-selection

machine-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-12-03 22:45:40

@stellasia，开局不错！

是的，有这么多特性是很常见的:抓住你认为可能需要的一切，然后让你的分析工具(或个人磨练)建议什么是不需要的。很难添加一些你没有的东西。

首先，您可以通过线性回归建模器来运行它。如果没有，则根据价格对每个特性运行相关系数；这样就可以消除那些接近0的特性(没有明显的影响)。

在此之后，对所有剩余的特性做一个完整的相关矩阵；那些在+1.00或-1.00附近的特征表示您可以消除这两个因素中的任何一个:它们彼此预测得非常好，所以您不需要两者兼而有之。

SKLearn很好。SciKit也是。如果您知道如何编写基本的矩阵方程，那么八度和MatLib是很好的。

我还可以推荐开源包TrustedAnalytics (我是该项目的软件负责人之一)。Python对于数据科学非常好，但它是一个大数据包:它位于其他您可能没有的工具之上。

票数 1

Stack Overflow用户

发布于 2015-12-03 20:44:23

你是怎么找到这些特征的？您是否已经在您的数据集中运行了一个特征选择算法？我真的很怀疑。我不知道您已经遵循了哪些步骤，但是当开始一个机器学习问题时，您首先必须对您的数据有一些直觉：

看数据生成直方图，相关图.例如，面积和房间数可能是高度相关的.
如果要执行线性回归，必须确保与目标变量(即价格)之间的关系是真正的线性关系:可能需要使用原始特征的一些函数来获得线性关系。
一旦您对那些似乎有所贡献的特性有了更好的了解，您就可以使用一些特性选择算法(例如，如果您使用python，可以在雪橇中打包)。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34075553

复制

相似问题

问机器学习中大量的特征是不好的(回归)？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习中大量的特征是不好的(回归)？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习中大量的特征是不好的(回归)？
EN