我正试图建立一个分类模型来预测纽约出租车出行的价格(2018年)。数据源页面
由于原始文件非常大(112 234 626行),所以我构建了较小的示例文件(1000行)来进行第一次探索性分析。通过使用这个示例文件,我构建了热图图来显示数据集特征之间的相关性。发现模型的因变量(fare_amount)仅与trip_distance变量相关。其他独立变量之间没有明显的相关性。
发布于 2019-06-04 20:17:48
考虑一下数据生成过程:对于出租车票价,相关的事情是行程的距离/时间。从定义上看,大多数出租车服务都是这样(优步可能有所不同)。也许白天的时间也起着一定的作用,例如白天/晚上的票价是不同的。
在一个简单的情况下,您甚至可能不需要一个统计解决方案,即。如果问题是确定性的,就意味着票价是一个简单的距离线性函数。
您可以使用(例如)线性回归来预测票价。在这种情况下,您可以有一个模型:
fare = b0 + b1 * dist + error.在这个模型中,只有一个预测器(这是一个单变量线性回归)是没有错的。
顺便说一句:如果你预测一个连续变量,你就会进行回归。如果您预测类(如是/否),则进行分类。
如果你有许多变量与y只有弱的相关性,你也可以使用调节(通过L1范数),在线性回归中,这被称为拉索,来“收缩”不相关的特征。
标价(y)与距离(x)之比。你可能会发现两者都是紧密一致的。
https://datascience.stackexchange.com/questions/53215
复制相似问题