文章/答案/技术大牛

发布

社区首页 >问答首页 >何时应平衡时间序列数据集？

问何时应平衡时间序列数据集？
EN

Data Science用户

提问于 2018-02-22 18:10:43

回答 1查看 5.2K关注 0票数 5

我正在训练一种机器学习算法来对时间序列中的向上/向下趋势进行分类，而且我使用的是一个不平衡的特征集。似乎有必要平衡数据，因为算法可以学习到对某一特定趋势的偏见，但这是以非代表性数据集为代价的。我应该平衡我的数据吗？如果是这样的话，随机抽样是正确的方法吗？

class-imbalance

machine-learning

classification

time-series

回答 1

Data Science用户

发布于 2019-03-14 14:47:54

如果您可以更改算法的Loss function，它将非常有用，因此您不需要降低数据样本。在评价不平衡数据集分类方法的性能时，引入了许多有用的度量。其中一些是卡帕、CEN、MCEN、MCC和DP。

免责声明：

如果使用python，PyCM模块可以帮助您找到这些指标。

下面是从这个模块获取推荐参数的简单代码：

>>> from pycm import *

>>> cm = ConfusionMatrix(matrix={"Class1": {"Class1": 1, "Class2":2}, "Class2": {"Class1": 0, "Class2": 5}})  

>>> print(cm.recommended_list)
["Kappa", "SOA1(Landis & Koch)", "SOA2(Fleiss)", "SOA3(Altman)", "SOA4(Cicchetti)", "CEN", "MCEN", "MCC", "J", "Overall J", "Overall MCC", "Overall CEN", "Overall MCEN", "AUC", "AUCI", "G", "DP", "DPI", "GI"]

在此之后，您想要用作损失函数的这些参数中的每一个都可以如下所示：

>>> y_pred = model.predict      #the prediction of the implemented model

>>> y_actu = data.target        #data labels

>>> cm = ConfusionMatrix(y_actu, y_pred)

>>> loss = cm.Kappa             #or any other parameter (Example: cm.SOA1)

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28200

复制

相似问题

问何时应平衡时间序列数据集？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问何时应平衡时间序列数据集？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问何时应平衡时间序列数据集？
EN