我得到了6个数据集,其中5个是培训组。这5个数据集对应于5个驱动程序。
数据集的每一行由一个时间戳和一个多行组成.多线给出每15秒司机的GPS坐标(纬度、经度)。因此,这条线的长度给出了每次旅行的时间。我必须将每个时间戳对应的多行分类为这5个驱动程序中的最后一个(测试)数据集。
我需要帮助选择分类算法。我以前只实现了朴素的贝叶斯(文本分类),但我不认为它会在这里起作用。我很难想象解决这个问题的方法。
发布于 2016-03-10 18:04:42
我以前做过一些工作,根据车辆(重型或轻型)的驾驶行为进行分类。这需要计算速度和加速,您可以很容易地使用数字公式,如五点模板。你已经知道,点的间隔是0.25秒,距离可以用哈弗辛公式计算。可以得到更多的特征,如驾驶范围、最大和平均速度、左、右转弯次数、硬突破和加速。试着在Google (或类似的绘图工具)上绘制多边形,看看是否有一个独特的地理模式(它们彼此相距很远,还是都在同一个区域?)如果模式是可见的,聚类算法可能会有所帮助。
https://datascience.stackexchange.com/questions/10630
复制相似问题