我有一个关于用户分割的问题,我有一个与Uber相同模型的应用程序的数据集。我所拥有的属性:预订,它意味着骑行的id,statutCourse表示取消或结束的骑行状态……Id客户和企业是客户工作的公司,IDChaufeur是售票员ID,我有起点和终点的地理坐标,我也有行程的日期和小时,也有实时估计的时间和估计的距离。

我想对客户端配置文件和导体配置文件进行分类/群集。
我的问题是,一个客户端可以进行多次游程,而我不知道是否可以在一个数据集中为同一个客户端使用多行乘车,而不是使用这个数据集将客户端分类为类或配置文件?
发布于 2020-04-10 22:03:22
如果要对人员进行群集,则需要每个人拥有一行。要做到这一点,您需要按IDClient/IDChauffeur进行分组,并计算诸如meanHourRide、stdHourRide、.
通过向算法提供同一人的多个记录(例如,相同的旅行),集群算法可能会创建一个具有相似旅行(时间/位置/距离)的集群,即使它是由一个客户创建的。
这将导致旅游集群,这也是可能的,但不是你想要的。
https://datascience.stackexchange.com/questions/72098
复制相似问题