首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习中大量的特征是不好的(回归)?

机器学习中大量的特征是不好的(回归)?
EN

Stack Overflow用户
提问于 2015-12-03 20:28:49
回答 2查看 1.8K关注 0票数 0

我正在对公寓的特点进行线性回归分析,然后预测公寓的价格。目前,我已经收集了我市13000套公寓的特色。我有23-25个特点,我不确定是否正常有这么多的功能在公寓价格预测。

我有以下特点:

区、小区、住宅小区、建筑年份、房屋建筑材料、房间数、楼层、总面积、居住面积、状况、地板材料、浴室类型、阳台、门类、固定线路、互联网连接类型、停车场、家具可用性、天花板高度、安全性。

有这么多的特性进行回归是正常的吗?这些特征是否适合于对公寓进行线性回归分析?也许减少特征的数量和消除一些由于冗馀而产生的特性更好?在我的例子中,大量的功能(公寓价格预测)是否会导致过度拟合?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-12-03 22:45:40

@stellasia,开局不错!

是的,有这么多特性是很常见的:抓住你认为可能需要的一切,然后让你的分析工具(或个人磨练)建议什么是不需要的。很难添加一些你没有的东西。

首先,您可以通过线性回归建模器来运行它。如果没有,则根据价格对每个特性运行相关系数;这样就可以消除那些接近0的特性(没有明显的影响)。

在此之后,对所有剩余的特性做一个完整的相关矩阵;那些在+1.00或-1.00附近的特征表示您可以消除这两个因素中的任何一个:它们彼此预测得非常好,所以您不需要两者兼而有之。

SKLearn很好。SciKit也是。如果您知道如何编写基本的矩阵方程,那么八度和MatLib是很好的。

我还可以推荐开源包TrustedAnalytics (我是该项目的软件负责人之一)。Python对于数据科学非常好,但它是一个大数据包:它位于其他您可能没有的工具之上。

票数 1
EN

Stack Overflow用户

发布于 2015-12-03 20:44:23

你是怎么找到这些特征的?您是否已经在您的数据集中运行了一个特征选择算法?我真的很怀疑。我不知道您已经遵循了哪些步骤,但是当开始一个机器学习问题时,您首先必须对您的数据有一些直觉:

  1. 看数据生成直方图,相关图.例如,面积和房间数可能是高度相关的.
  2. 如果要执行线性回归,必须确保与目标变量(即价格)之间的关系是真正的线性关系:可能需要使用原始特征的一些函数来获得线性关系。
  3. 一旦您对那些似乎有所贡献的特性有了更好的了解,您就可以使用一些特性选择算法(例如,如果您使用python,可以在雪橇中打包)。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34075553

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档