我有一个文本分类深度学习模型,它接收一个文本并输出一个softmax概率。我使用手套嵌入来表示DL模型的数字形式的输入文本。
DL模型实际上也很简单。嵌入层是可训练的,没有权值传递给它。

训练结束后,当我用看不见的文字做预测时,我会意识到只有一个关键词在预测中有着巨大的重要性。为了确保这种情况,我改变了输入文本,只包括那些关键字和软件概率或多或少相同。
那么,我在我的模型中做了哪些改变,从嵌入技术到网络,或者无论如何,让模型不依赖于一些单词,并迫使它考虑整个句子?
发布于 2021-11-03 15:29:07
在你的实验中可能会发生一些事情。首先,你所看到的最重要的关键字可能与正确的预测有着内在的关联。
除此之外,通过以密集层的形式提供网络单词,这些单词被引入,没有内在的相互依赖,并且在前向传递中被视为正交的。
强迫它考虑整个句子
我想你可能要说的是,有些在你的文本的顺序或时间结构中有一些“意义”,你想把它作为你的数据的一个内在特征,当它被传递到你的网络时。以上正是一个递归层所要做的事情:在单词/特性之间施加一种逐步依赖,因为它们是在时间上发生的,并且只允许在这种特殊的重复结构中看到您的数据。通过这种方式,目标/输入序列的固定长度表示被向下投影到序列最后一步的隐藏状态向量中。
您的模型将根据输入文本的这一特定的最后隐藏状态进行调整,从而强制通过代理来查看整个句子。
如果您尝试此方法,请注意渐变消失;)
https://datascience.stackexchange.com/questions/103713
复制相似问题