而当 Xt-3 1时,Y 为1的概率要加上50%,变为100%;当 Xt-8 为1时,Y 为1的概率要减去25%,变为25%;如果 Xt-3 和 Xt-8 同时为1,则 Y 为1的概率为50%+50%- 25%=75% 因此会分别在 Xt-3 和 Xt-8 这两处有依赖关系。 这个数据非常简单,我们可以根据是否学习依赖关系来计算训练 RNN 的期望交叉熵损失: 当网络没有学习任何依赖关系:那么它将正确地分配概率为62.5%,交叉熵的损失大概为0.66 当网络只学习到 Xt-3
数据集 首先我们看一下实验数据的构造: 输入数据X:在时间t,Xt的值有50%的概率为1,50%的概率为0; 输出数据Y:在实践t,Yt的值有50%的概率为1,50%的概率为0,除此之外,如果`Xt- 如果RNN学习到第一条依赖关系,即Xt-3为1时Yt一定为1。
2017年2月的3个月移动平均线是多少A)300 B) 350 C) 400 D)需要更多的信息 解决方案:(A) X' = (xt-3 + xt-2 + xt-1) /3 (200+300+400)/