文章/答案/技术大牛

发布

社区首页 >问答首页 >数据集特征之间没有关联

问数据集特征之间没有关联
EN

Data Science用户

提问于 2019-06-04 20:01:15

回答 1查看 384关注 0票数 0

我正试图建立一个分类模型来预测纽约出租车出行的价格(2018年)。数据源页面

由于原始文件非常大(112 234 626行)，所以我构建了较小的示例文件(1000行)来进行第一次探索性分析。通过使用这个示例文件，我构建了热图图来显示数据集特征之间的相关性。发现模型的因变量(fare_amount)仅与trip_distance变量相关。其他独立变量之间没有明显的相关性。

这是否意味着我使用的数据集不适合于分类任务？
还是我没有正确地解决这个任务？
有多少自变量应该与因变量相关，才能计算出“足够好”以供进一步分析？
对于特征选择和维数检测，我应该选择哪种方法？应该是热图，PCA还是别的什么？

我的GitHub代码

classification

feature-selection

回答 1

Data Science用户

发布于 2019-06-04 20:17:48

考虑一下数据生成过程:对于出租车票价，相关的事情是行程的距离/时间。从定义上看，大多数出租车服务都是这样(优步可能有所不同)。也许白天的时间也起着一定的作用，例如白天/晚上的票价是不同的。

在一个简单的情况下，您甚至可能不需要一个统计解决方案，即。如果问题是确定性的，就意味着票价是一个简单的距离线性函数。

您可以使用(例如)线性回归来预测票价。在这种情况下，您可以有一个模型：

fare = b0 + b1 * dist + error.

在这个模型中，只有一个预测器(这是一个单变量线性回归)是没有错的。

顺便说一句:如果你预测一个连续变量，你就会进行回归。如果您预测类(如是/否)，则进行分类。

如果你有许多变量与y只有弱的相关性，你也可以使用调节(通过L1范数)，在线性回归中，这被称为拉索，来“收缩”不相关的特征。

标价(y)与距离(x)之比。你可能会发现两者都是紧密一致的。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/53215

复制

相似问题

问数据集特征之间没有关联
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集特征之间没有关联EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集特征之间没有关联
EN