首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类模型要对大量的分类器进行分类?

分类模型要对大量的分类器进行分类?
EN

Data Science用户
提问于 2020-06-12 04:51:49
回答 1查看 62关注 0票数 1

你好,我是机器学习/深入学习领域的新手,我发现很难为我的研究选择合适的模型。

我想要建立的是一个模型,在给定的起始站和目的地站的情况下,根据出行时间和换乘时间对用户使用的地铁路线进行分类。

这是对我的数据集的描述。

代码语言:javascript
复制
   BSEC BSTN ASTN1 BSTN2 ASTN2 BSTN3 ASTN3 BSTN4 ASTN4 BSTN5 ASTN TFtime Ttime
 69551 1001  1703  1703     0     0     0     0     0     0 1003    399  2933
 69664 1001  1703  1703     0     0     0     0     0     0 1006    399  2284
 66606 1001  1703  1703     0     0     0     0     0     0 1701    118  1750
 66600 1001  1703  1703     0     0     0     0     0     0 1701    118  1750
 66601 1001  1703  1703     0     0     0     0     0     0 1701    118  1750
 69434 1001     0     0     0     0     0     0     0     0 1703      0  1005

ASTN1,BSTN2,ASTN2...BSTN5是指通过站点BSTN2表示的登机和到达站。

我有另一组标记为路由信息的数据集。

问题从这里开始。

我试图建立一个模型,可以分类一个用户使用的路由,给定的BSTN,ASTN,和时间信息黑海,TFtime,时间。有太多的路线标签,因为所有的路线都不同的每一对原产地站和目的地站。

以下是每个起始站和目的地站的路线数目。

代码语言:javascript
复制
   BSTN  ASTN trips    
  <dbl> <dbl> <int>
1   150   152     3     
2   150   153     7     
3   150   154     2     
4   150   156     2     
5   150   157     2     
6   150   158     4     

正如所描述的,只有5个原产地目的地对已经有20个不同的路径。共有109,425对原产地和目的地,236,213条路线。我不能给标签的每236,213条路线为模型分类。

我试着为每一对原产地目标对建立随机森林模型。但我无法调整或解释他们,因为有太多的类型的模型。

什么样的模式适合我的情况?是否有一种方法可以解释给定的OD对,然后在Origin组合中执行分类?

我真的很想得到一些建议或帮助。

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-06-12 12:38:08

这看起来是一个非常困难的问题,因为有许多可能的类和很少的特性信息来区分它们。要记录在案,根据路线估计旅行时间的反向问题可能更可行。

所以你不能期望在这样的问题上有很好的表现,我们的目标是设计这个问题,使问题尽可能简单,分类器可以完成足够好的工作。以下是一些建议:

  1. 从培训特定于一对BSTN,ASTN的模型开始。
  2. 丢弃最不可能的路由,即很少用于对BSTN、ASTN的路由(例如频率低于10的路由)。
  3. 检查数据,看看这些特性是否允许区分(main)类。例如,您可以为不同的路由绘制黑海、TFtime、时间的分布:如果分布比较接近,分类器成功的可能性就很小。您还可以训练决策树并手动检查它,以查看发生了什么。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/75869

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档