我有一个相当大的数据集(> 100 k行),其中包含物流运输的信息。(出口货物)
数据集如下所示:
|shipper|consignee |origin|destination |
|-------|-----------------------------|------|---------------------------------------------|
|6409292|288882 |USSFO |CNPVG |
|6409292|288882 |USSFO |CNPVG |
|6409292|182724 |USSFO |HKHKG |
|6409292|182724 |USSFO |HKHKG |
|8201922|948292 |USSFO |FRCDG |
|8201922|948292 |USSFO |FRCDG |
|8201922|948292 |USSFO |FRNIC |
|8201922|291222 |USEWR |AEDXB |所以我们这里有一份过去货物的清单。它显示了托运人和收货人之间的关系,以及货物从何处运往何处。
根据过去的数据,我希望能够通过查看consignee code和origin来预测何时添加新的货件。
以以下新订位为例:
|shipper|consignee |origin|destination |
|-------|-----------------------------|------|---------------------------------------------|
|1234567|948292 |USMOB |? |我如何训练一个模型来预测destination?在ML中这个区域指的是什么?
发布于 2020-02-12 01:10:10
这是一个监督的分类问题:您试图根据某些分类特性(输入列)来预测目标(类)。我建议从一些简单的算法开始,比如决策树或朴素贝叶斯。
然而,我猜想物流运输可能会随着时间的推移而发展:也许托运人的业务会随着X国增长而随着Y国而减少等等。如果这是相关的话,也许有必要研究更先进的方法,这些方法可以考虑到时间序列的演变(时间序列)。
https://datascience.stackexchange.com/questions/67881
复制相似问题