反向传播需要的内存统计

考虑三层的全连接层:

输出节点数为$K$,输出$o^k=[o_1^k,o_2^k,o_3^k,…,o_k^k]$
倒数第二层节点数为$J$,输出为$o^J=[o_1^J,o_2^J,o_3^J,…,o_J^J]$
倒数第三层节点数为$I$,输出为$o^I=[o_1^I,o_2^I,o_3^I,…,o_I^I]$

$t_1$到$t_K$为真实标签。

loss计算为$\delta=\sum \limits_{k}(o_k-t_k)^2$

之后取均方误差$L=\delta^2/2$

求导后得,因为$w_{jk}$只与$o_k$有关,所以上面的求和符号可以去掉。

代入$o_k=\sigma(z_k)$,Sigmoid函数的倒数为$\sigma’=\sigma(1-\sigma)$,最终可得