你好,我是机器学习/深入学习领域的新手,我发现很难为我的研究选择合适的模型。
我想要建立的是一个模型,在给定的起始站和目的地站的情况下,根据出行时间和换乘时间对用户使用的地铁路线进行分类。
这是对我的数据集的描述。
BSEC BSTN ASTN1 BSTN2 ASTN2 BSTN3 ASTN3 BSTN4 ASTN4 BSTN5 ASTN TFtime Ttime
69551 1001 1703 1703 0 0 0 0 0 0 1003 399 2933
69664 1001 1703 1703 0 0 0 0 0 0 1006 399 2284
66606 1001 1703 1703 0 0 0 0 0 0 1701 118 1750
66600 1001 1703 1703 0 0 0 0 0 0 1701 118 1750
66601 1001 1703 1703 0 0 0 0 0 0 1701 118 1750
69434 1001 0 0 0 0 0 0 0 0 1703 0 1005ASTN1,BSTN2,ASTN2...BSTN5是指通过站点BSTN2表示的登机和到达站。
我有另一组标记为路由信息的数据集。
我试图建立一个模型,可以分类一个用户使用的路由,给定的BSTN,ASTN,和时间信息黑海,TFtime,时间。有太多的路线标签,因为所有的路线都不同的每一对原产地站和目的地站。
以下是每个起始站和目的地站的路线数目。
BSTN ASTN trips
<dbl> <dbl> <int>
1 150 152 3
2 150 153 7
3 150 154 2
4 150 156 2
5 150 157 2
6 150 158 4 正如所描述的,只有5个原产地目的地对已经有20个不同的路径。共有109,425对原产地和目的地,236,213条路线。我不能给标签的每236,213条路线为模型分类。
我试着为每一对原产地目标对建立随机森林模型。但我无法调整或解释他们,因为有太多的类型的模型。
什么样的模式适合我的情况?是否有一种方法可以解释给定的OD对,然后在Origin组合中执行分类?
我真的很想得到一些建议或帮助。
发布于 2020-06-12 12:38:08
这看起来是一个非常困难的问题,因为有许多可能的类和很少的特性信息来区分它们。要记录在案,根据路线估计旅行时间的反向问题可能更可行。
所以你不能期望在这样的问题上有很好的表现,我们的目标是设计这个问题,使问题尽可能简单,分类器可以完成足够好的工作。以下是一些建议:
https://datascience.stackexchange.com/questions/75869
复制相似问题