首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据集特征之间没有关联

数据集特征之间没有关联
EN

Data Science用户
提问于 2019-06-04 20:01:15
回答 1查看 384关注 0票数 0

我正试图建立一个分类模型来预测纽约出租车出行的价格(2018年)。数据源页面

由于原始文件非常大(112 234 626行),所以我构建了较小的示例文件(1000行)来进行第一次探索性分析。通过使用这个示例文件,我构建了热图图来显示数据集特征之间的相关性。发现模型的因变量(fare_amount)仅与trip_distance变量相关。其他独立变量之间没有明显的相关性。

  1. 这是否意味着我使用的数据集不适合于分类任务?
  2. 还是我没有正确地解决这个任务?
  3. 有多少自变量应该与因变量相关,才能计算出“足够好”以供进一步分析?
  4. 对于特征选择和维数检测,我应该选择哪种方法?应该是热图,PCA还是别的什么?

我的GitHub代码

EN

回答 1

Data Science用户

发布于 2019-06-04 20:17:48

考虑一下数据生成过程:对于出租车票价,相关的事情是行程的距离/时间。从定义上看,大多数出租车服务都是这样(优步可能有所不同)。也许白天的时间也起着一定的作用,例如白天/晚上的票价是不同的。

在一个简单的情况下,您甚至可能不需要一个统计解决方案,即。如果问题是确定性的,就意味着票价是一个简单的距离线性函数。

您可以使用(例如)线性回归来预测票价。在这种情况下,您可以有一个模型:

代码语言:javascript
复制
fare = b0 + b1 * dist + error.

在这个模型中,只有一个预测器(这是一个单变量线性回归)是没有错的。

顺便说一句:如果你预测一个连续变量,你就会进行回归。如果您预测类(如是/否),则进行分类。

如果你有许多变量与y只有弱的相关性,你也可以使用调节(通过L1范数),在线性回归中,这被称为拉索,来“收缩”不相关的特征。

标价(y)与距离(x)之比。你可能会发现两者都是紧密一致的。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/53215

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档