my-deep-learning/bp的口诀.md at master · qiaohaijun/my-deep-learning · GitHub

如果从caffe的角度来看问题的话每一次的梯度是下面 bottom.data * top.diff

下面这个blog讲的不错

http://blog.csdn.net/zhongkejingwang/article/details/44514073

每个权重的梯度都等于与其相连的前一层节点的输出（即xi和θ(s1i)）乘以与其相连的后一层的反向传播的输出（即δ1j和δ2j）。

如果看不明白原理的话记住这句话即可！

这个如果推导的话，也会得到同样的结论。

你知道为啥吗，因为我们把深度模型的训练过程当作了一个数据优化的问题。

用的法则是链式求导。

刚才说的口诀就是链式求导的结果。