目标:
嘿,伙计们,我正在尝试用Python创建一个分类模型来预测共享单车站点何时会有过多的每小时相对流入或流出。
我们正在做的工作是:
我的数据帧的前5行(总共超过200,000行)看起来像这样,我在'flux‘列中分配了值0,1,2-如果没有重要的动作,1如果流入太多,2如果流出太多。

我正在考虑使用station_name (超过300个站点)、一天中的某小时和一周中的某一天作为预测变量来对“流量”进行分类。
模型选择:
我应该配什么?朴素贝叶斯?KNN?随机森林?还有什么适合的吗?GDM?SVMs?
仅供参考: always 0的基线预测相当高,为92.8%。不幸的是,逻辑回归和决策树的准确性与之相当,并没有太大的提高。而KNN只需要很长的时间...
在处理这样的分类问题时,来自那些在机器学习方面更有经验的人的建议?
发布于 2015-07-25 14:38:05
在这种不平衡数据的情况下,只需使用与平均精度不同的任何方法进行模型评估:精度/召回/F1/混淆矩阵:
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics
尝试不同的模型,并根据测试集上选择的指标选择最佳模型。
https://stackoverflow.com/questions/31621215
复制相似问题