反向传播需要的内存统计考虑三层的全连接层:
输出节点数为$K$,输出$o^k=[o_1^k,o_2^k,o_3^k,…,o_k^k]$倒数第二层节点数为$J$,输出为$o^J=[o_1^J,o_2^J,o_3^J,…,o_J^J]$倒数第三层节点数为$I$,输出为$o^I=[o_1^I,o_2^I,o_3^I,…,o_I^I]$
$t_1$到$t_K$为真实标签。
loss计算为$\delta=\sum \limits_{k}(o_k-t_k)^2$
之后取均方误差$L=\delta^2/2$
求导后得,因为$w_{jk}$只与$o_k$有关,所以上面的求和符号可以去掉。
\frac{\partial L}{\partial w_{jk}}=(o_k-t_k)\frac{\partial o_k}{\partial w_{jk}}代入$o_k=\sigma(z_k)$,Sigmoid函数的倒数为$\sigma’=\sigma(1-\sigma)$,最终可得
\frac{\partial L}{\partial w_{jk}}=(o_k-t_k)o_k(1-o_k)\cdot ...