其他
【脑洞】Hinton剑桥演讲:大脑神经元的误差反向传播机制
-Layers with big weights get small gradients-Layers with small weights get big gradients
分析:请发功,用神经元,秒解一个N元M次函数的求导问题。(想想也不可能)
-Forward Pass (Signal=activity=y)-Backward Pass (Signal=dE/dx)
-It is better than sending real-values.
分析:如此庞大数量的神经突触,肯定不会同时激活的。激活过程疑似泊松过程,即每次随机抽出部分神经突触发电信号,这点和Dropout过程相近。 ★A good way to throw a lot of parameters at a task is to use big neural networkswith dropout
分析:补上一个要点,大型模型相当于建立一堆突触,而Dropout每次只激活部分,屏蔽大部分参数。
分析:逆向权值如果是随机、且固定的,会怎么样?(即不存在自适应调整机制) ★Lillicrap,Cownden,Tweed&Akerman(2014)showed that backprop still works almost as well. -The bottom-up weights adapt so that the fixed top-down weights are approximately their pseudo-inverse near the data mainfold. 分析:固定逆向权值,并不会造成太大影响。根据论文说法,最后正向权值矩阵会调整到与逆向权值矩阵互逆。 尽管固定逆向权值,并不会导致情况很糟糕,但是Hinton还是推荐逆向权值自适应调整,这贴合生物神经实际情况。 ★If it works for fixed top-down weights,it must work for slowly changing top-down weights. -So adapt the top-down weights to be good at reconstructing the activity in the layer below. -This is just the wake-phase of the wake-sleep algorithm. 分析:自适应的逆向权值调整有利于重构。另外,这也是wake-sleep算法的醒状态。详见 [zouxy09] 的博客。 ★With slowly apdapting top-down weights it works better. 在MNIST测试中: -A 784-800-800-10 network with 50% dropout gets 153 errors. -With fixed top-down pre-training,it gets 160 errors. -With real adaptive backprop,it gets 150 errors and learns faster. 分析:从MNIST来看,自适应Pre-Traning还是不错的。
合肥工业大学计算机专业大三本科生,中科院深圳先进院集成所MMLAB访问学生。原ACM-ICPC算法竞赛选手,2015年获CCPC铜牌。2015年初开始研究机器学习,研究兴趣集中于对深度学习理论、应用(CV&NLP)及系统架构设计的综合探索。关于深度学习在面部情感分析方面应用的论文被《自动化学报》录用。
深度学习大讲堂