查看原文
其他

神经网络历史回顾:深度学习架构的演变

Bindu Reddy 张无常 2023-10-09

本文简要回顾了深度学习架构的演变,介绍了神经网络的历史,作者 Bindu Reddy,原文链接见文末。以下为GPT-4翻译、我粗校的版本,疏漏之处,文责在GPT-4🐶。






奥本海默,这部电影,让我们所有人都在思考40年代和二战。信不信由你,第一个神经网络(NN)就在那个时候,1943年左右被发明出来!


神经网络的创始人沃伦·麦卡洛克和沃尔特·皮茨对生物神经元的工作方式产生了浓厚的兴趣,并提出了一个神经网络的数学模型


直到1958年,弗兰克·罗森布拉特才发明了"感知器",这基本上是一个设计用来从错误中学习的计算机程序。它在一台非常大的机器上运行,基本上进行二进制分类。虽然这些初级神经网络引起了很大的兴奋,但它们需要大量的计算和数据,这意味着它们需要一些严肃的资金支持。


在1969年,Minsky和Papert发表了一篇名为"感知器"的论文,几乎扼杀了所有神经网络的创新。这篇论文证明了单个感知器无法解决包括XOR问题在内的简单问题,严重限制了其发展,所有的资金支持也因此停止。与此同时,像支持向量机(SVMs)这样的算法开始崭露头角,神经网络则被推到了次要位置。


多层感知器(MLPs)被视为解决单层感知器问题的一种方式,但是训练这些MLPs证明非常困难。直到1986年,我们才看到神经网络的复兴。Rumelhart,Hinton和Williams引入了反向传播算法,突然间,训练多层神经网络变得可行。计算机变得更加强大,更多的数据变得可用。神经网络又回到了商业领域。


在80年代晚期,Yann LeCunn引入了卷积神经网络(CNN)。CNN的卷积层可以模拟图像的空间层次结构,神经网络开始在图像处理应用中发挥作用。然而,支持向量机(SVM)仍然是最受欢迎的,而神经网络则被用于像手写识别这样的特殊任务。


仅在2000年代,我们才看到神经网络的真正复兴。杰夫·辛顿引入了深度信念网络,深度学习(DL)这个术语开始流行起来。


在2012年,深度学习通过一个名为AlexNet的卷积神经网络实现了重大突破,其在图像分类中的表现超越了所有其他算法。自那时以来,我们见证了神经网络架构的爆炸式增长。


循环神经网络(RNNs)和长短期记忆网络在理解序列数据的模式方面非常有用。2015年,残差网络(ResNets)帮助解决了消失的梯度问题(这是深度学习训练中的另一个棘手问题),并且深度学习的研究正在迅速发展。


在2014年,生成神经网络有了一个重大突破 - 由Ian Goodfellow等人发明了生成对抗网络(GANs)。GANs非常擅长生成逼真的图像。第一个深度伪造就此诞生 :)


最后,在2017年,Vaswani等人引入了Transformers模型。Transformers模型通过其自我关注机制,使模型能够衡量每个词与其他词的重要性,从而更好地理解语言。


2018年的BERT是对Transformers的一种特定实现,能够从两个方向理解和查看文本。BERT在大量数据(例如维基百科)上进行预训练,并可以通过微调适应特定任务。BERT可以适应多种任务,如问答和文本分类。


就在几个月前,也就是2018年,OpenAI推出了GPT模型。这些模型是单向的,但也在大量数据上进行了训练。与BERT不同,GPT被精细调整用于生成或预测下一个词。自2018年以来,我们已经看到了GPT系列更好、更复杂的版本...到2023年发布的GPT-4,它具有人类级别的认知、生成和基本推理能力!


所以,大约80年前开始的事情现在终于开始全面接管并彻底改变世界了!!



原文链接:

https://twitter.com/bindureddy/status/1693828426594157052


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存