文章/答案/技术大牛

发布

社区首页 >问答首页 >关于倾斜数据集的培训

问关于倾斜数据集的培训
EN

Data Science用户

提问于 2020-02-24 15:50:51

回答 1查看 146关注 0票数 1

我有一个多类分类的问题，我使用了一个简单的2层双向LSTM和角点。

该模型的形式很简单：

Bidirectional LSTM (64)
Bidirectional LSTM (64)
Dense (128)
Activation Sigmoid
Dense (14)
Activation Softmax

我有一个原始和扭曲的数据集，所以我正在做所有的预处理，以平衡它。

首先，我复制了原始数据，并生成了3*OriginalData，以生成更多未表示的类的示例。
然后我进行了分类，并在下面描述了训练和验证集的丢失和准确性历史。

精确性是在25个年代之后建立起来的，但是损失有很大的变化，所以我决定复制更多的数据，所以我产生了10*原始数据，并再次进行了分类。

现在我的失落感和准确性表现得更糟。

我的问题是问题在于我的模型，还是数据的复制。当有这么多的数据时，一个模型是否有可能很好地工作在较少的数据上，但却没有那么好呢？或者是我通过提供过度复制的数据导致了它的过度适应？

注意:复制数据并不意味着复制，但因为我使用音频数据，所以我玩不同的音高转换。

keras

lstm

overfitting

回答 1

Data Science用户

发布于 2020-02-24 16:18:30

可能是你的模型或者你的数据。您需要进行更改模型(同时保持数据不变)的实验，以分离因果原因。

是的-如果有更多的数据，模型会变得更糟。主要原因之一是模型学习能力往往有限。简单的模型只能成功地建立简单的关系。再一次--如果你适合一个更复杂的模型，你就会开始理解可能导致这种观察的机制。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68618

复制

相似问题

问关于倾斜数据集的培训
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于倾斜数据集的培训EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于倾斜数据集的培训
EN