首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >何时应平衡时间序列数据集?

何时应平衡时间序列数据集?
EN

Data Science用户
提问于 2018-02-22 18:10:43
回答 1查看 5.2K关注 0票数 5

我正在训练一种机器学习算法来对时间序列中的向上/向下趋势进行分类,而且我使用的是一个不平衡的特征集。似乎有必要平衡数据,因为算法可以学习到对某一特定趋势的偏见,但这是以非代表性数据集为代价的。我应该平衡我的数据吗?如果是这样的话,随机抽样是正确的方法吗?

EN

回答 1

Data Science用户

发布于 2019-03-14 14:47:54

如果您可以更改算法的Loss function,它将非常有用,因此您不需要降低数据样本。在评价不平衡数据集分类方法的性能时,引入了许多有用的度量。其中一些是卡帕CENMCENMCCDP

免责声明:

如果使用python,PyCM模块可以帮助您找到这些指标。

下面是从这个模块获取推荐参数的简单代码:

代码语言:javascript
复制
>>> from pycm import *

>>> cm = ConfusionMatrix(matrix={"Class1": {"Class1": 1, "Class2":2}, "Class2": {"Class1": 0, "Class2": 5}})  

>>> print(cm.recommended_list)
["Kappa", "SOA1(Landis & Koch)", "SOA2(Fleiss)", "SOA3(Altman)", "SOA4(Cicchetti)", "CEN", "MCEN", "MCC", "J", "Overall J", "Overall MCC", "Overall CEN", "Overall MCEN", "AUC", "AUCI", "G", "DP", "DPI", "GI"]

在此之后,您想要用作损失函数的这些参数中的每一个都可以如下所示:

代码语言:javascript
复制
>>> y_pred = model.predict      #the prediction of the implemented model

>>> y_actu = data.target        #data labels

>>> cm = ConfusionMatrix(y_actu, y_pred)

>>> loss = cm.Kappa             #or any other parameter (Example: cm.SOA1)
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28200

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档