首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >计算反向传播

计算反向传播
EN

Data Science用户
提问于 2018-01-20 20:51:40
回答 1查看 494关注 0票数 2

我有上面提到的问题。它试图找出f关于权矩阵W1的导数。有谁能帮我完成这个任务吗?

我用这种方法解决了:

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-01-22 05:41:03

你在这里少了一小步。在输出节点,反向传播算法从损失函数L开始。你想知道重量w_1对我们的损失函数有多大的影响

\frac{\partial L}{\partial w_1}

我们可以用链式规则将其分解为

\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial f} \frac{\partial f}{\partial w_1} = \frac{\partial L}{\partial f} \frac{\partial f}{\partial \sigma} \frac{\partial \sigma}{\partial w_1}

我们为什么要这么做?

我们这样做是为了简化数学。因为Lf的函数,f\sigma的函数,\sigma是权值的函数。但如果我们暂时忽略损失函数。

我们如何计算\frac{\partial f}{\partial w^2_{i, j}}?

\frac{\partial f}{\partial w^2_{i,j}} = \frac{\partial f}{\partial h^2_i} \frac{\partial h^2_i}{\partial w^2_1}
f = h_1^2 w_{1,1}^3 + h_2^2 w_{2,1}^3
\frac{\partial f}{\partial h^2_i} = w_{i, 1}^3
\frac{\partial h^2_i}{\partial w^2_1} = \sigma(W^2h^1) (1 - \sigma(W^2h^1))

Backpropagation

基于这个答案,我们可以看到h_i^2是来自前一层的输入和神经元的激活的函数。因此,我们可以把这个函数替换到我们的方程中,并继续取导数,我们可以看到误差是如何在网络中向后传播的。

\frac{\partial f}{\partial w^1_{i,j}} = \frac{\partial f}{\partial h^2_i} \frac{\partial h^2_i}{\partial h^1_i} \frac{\partial h^1_i}{\partial w^1_{i,j}}

(最新情况)

答案

这可能是不正确的,工作需要检查。

f = \begin{bmatrix} w_{11}^3 & w_{21}^3 \end{bmatrix} \begin{bmatrix} h_{1}^2 \\ h_{2}^2 \end{bmatrix} = \textbf{W}^3\textbf{h}^2
\textbf{h}^2 = \begin{bmatrix} h_{1}^2 \\ h_{2}^2 \end{bmatrix} = \sigma(\begin{bmatrix} w_{11}^2 & w_{21}^2 \\ w_{21}^2 & w_{22}^2\end{bmatrix} \begin{bmatrix} h_{1}^1 \\ h_{2}^1 \end{bmatrix}) = \sigma(\textbf{W}^2\textbf{h}^1)
\textbf{h}^1 = \begin{bmatrix} h_{1}^1 \\ h_{2}^1 \end{bmatrix} = \sigma(\begin{bmatrix} w_{11}^1 & w_{21}^1 \\ w_{21}^1 & w_{22}^1\end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}) = \sigma(\textbf{W}^1\textbf{X})

然后使用链式规则

\frac{\partial f}{\partial \textbf{W}^1} = \frac{\partial f}{\partial \textbf{h}^2} \frac{\partial \textbf{h}^2}{\partial \textbf{h}^1} \frac{\partial \textbf{h}^1}{\partial \textbf{W}^1} = \textbf{W}^3 * \sigma(\textbf{W}^2\textbf{h}^1)(1-\sigma(\textbf{W}^2\textbf{h}^1)) * \sigma(\textbf{W}^1\textbf{X})(1-\sigma(\textbf{W}^1\textbf{X}))
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26874

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档