查看原文
其他

「重磅!!」深度学习十年技术“进化史”

ShuYini AINLPer 2023-07-10

喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!


参考文章:【机器之心】:“告别2019:属于深度学习的十年,那些我们必须知道的经典”
作者原文:https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/#fnref1

引言

    本次文章按照时间顺序整理总结了过去十年中深度学习技术的发展,从2011年的ReLU开始,到后来的AlexNet、GAN、Attention等,最后到最近这两年的Transform、Bert等,并给出对应节点的论文的链接地址。

2011 激活函数ReLU

论文:Deep Sparse Rectifier Neural Networks(ReLU)

论文链接:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

    早期的神经网络大多使用 sigmoid 激活函数。虽然它具有很好的效果,但是,随着层数的增加,这种激活函数使得梯度很容易出现衰减。在 2011 年的这篇论文中,ReLU 被正式提出。它能够帮助解决梯度消失的问题,为神经网络增加深度铺路。当然,ReLU 也有一些缺点。在函数为 0 的时候不可微,而神经元可能会「死亡」。在 2011 年之后,很多针对 ReLU 的改进也被提了出来。
    在这一年中,学术界最主要的研究集中在对激活函数的改进上面。比较著名的文章有:
    [1]Rectifier Nonlinearities Improve Neural Network Acoustic Models(Leaky ReLU)
    本文介绍了一种Leak ReLU,它在负半部分不输出零,而是有一个小的梯度。这是为了帮助ReLU的消失问题。尽管如此,Leak ReLUs在导数为0时仍然存在不连续。
    [2]Fast and Accurate Deep Network Learning by Exponential Linear     Units (ELUs)
    本文的ELUs与Leak ReLUs相似,但其更平滑,负极饱和度为-1。
    [3]Self-Normalizing Neural Networks(SELUs)
    本文SELUs的目标是消除批量标准化,通过缩放ELU来创建一个固定点,并将分布推向零均值和单位方差。
    [4]Gaussian Error Linear Units (GELUs) 
    本文GELU的激活是基于根据高斯分布丢失神经元的期望值。GELUs被用在许多最先进的Transform模型中,如BERT和GPT/GPT2。

2012 AlexNet

论文:ImageNet Classification with Deep Convolutional Neural Networks(AlexNet)
链接:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
    AlexNet 经常被认为是这一波人工智能浪潮的起点,该网络在 ImageNet 挑战赛中的错误率与前一届冠军相比减小了 10% 以上,比亚军高出 10.8 个百分点。AlexNet 是由多伦多大学 SuperVision 组设计的,由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 组成。
    AlexNet 是一个 8 层的卷积神经网络,使用 ReLU 激活函数,总共有 6 千万参数量。AlexNet 的最大贡献在于证明了深度学习的能力。它也是第一个使用并行计算和 GPU 进行加速的网络。
    在 ImageNet 上,AlexNet 取得了很好的表现。它将识别错误率从 26.2% 降到了 15.3%。显著的性能提升吸引了业界关注深度学习,使得 AlexNet 成为了现在这一领域引用最多的论文。
    在这一年中,学术界针对这个方向上做的主要研究有:
[1]ImageNet: A Large-Scale Hierarchical Image Database(ImageNet)
    ImageNet 是斯坦福大学李飞飞等人完成的一个用于图像识别的数据集,是计算机视觉领域检验模型性能的基准数据集。
[2]Flexible, High Performance Convolutional Neural Networks for Image Classification
    该论文早于AlexNet,并且与之有很多共同点:两篇论文都利用GPU加速来训练深度网络,并且都使用ReLU激活来解决深度网络的消失梯度问题。一些人认为,这篇论文被不公平地忽略了它的位置,被引用的次数远远少于AlexNet。
[3]Gradient-Based Learning Applied to Document Recognition
    这篇1998年的论文被引用了23110次,是CNNs图像识别领域被引用次数最多的论文。事实上,现代cnn几乎就是这个早期工作的放大版!

2013 word2vec

论文:Distributed Representations of Words and Phrases and their Compositionality(word2vec)

链接:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

    Word2vec 是由谷歌研究团队里 Thomas Mikolov 等人提出的模型,该模型能从非常大的数据集中计算出用以表示词的连续型向量。word2vec 成为了 NLP 领域的深度学习主要的文本编码方式。它基于在相同语境中同时出现词具有相似含义的思路,使文本可以被嵌入为向量,并用于其他下游任务。

[1]GloVe: Global Vectors for Word Representation

    GloVe是基于word2vec核心思想的改进模型,只是实现方式略有不同。关于这两种模式中哪一种总体上更好,存在激烈的争论。

[2]Playing Atari with Deep Reinforcement Learning

    DeepMind 在这一年提出的用 DQN 玩雅达利游戏开启了深度强化学习研究的大门。强化学习过去大多数情况下用在低维环境中,很难在更复杂的环境中使用。雅达利游戏是第一个强化学习在高维环境中的应用。这一研究提出了 Deep Q-learning 算法,使用了一个基于价值的奖励函数。

[3]Learning from Delayed Rewards(Q-Learning)

    该篇文章是Christopher Watkins在1989年第一个提出Q-Leaning


2014 GAN、Adam、Attention

论文:Generative Adversarial Networks(GAN)

链接:https://papers.nips.cc/paper/5423-generative-adversarial-nets

    生成对抗网络(Generative Adversarial Network,简称 GAN)是 Ian Goodefellow 等人提出的非监督式学习方法,通过让两个神经网络相互博弈的方式进行学习。自 2014 年 GAN 网络提出以来,其在 Computer Vision(计算机视觉)等领域获得了广泛的关注。

    生成对抗网络(GAN)的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大(minimax)博弈,GAN 能够建模高纬度、复杂的数据分布。在 GAN 中,生成器用于生成假的样本,而判别器进行判断(是否为生成数据)。

    这一年与GAN相关的论文有:

[1]Wasserstein GAN & Improved Training of Wasserstein.

    WGAN 是 GAN 的改进版本,取得了更好的效果。 

[2]StyleGAN

    StyleGAN能够生成令人惊叹的高分辨率图像,这些图像几乎与真实图像无法区分。在这种高分辨率GANs中使用的最重要的技术之一是逐步增加图像大小,并将其合并到StyleGAN中。StyleGAN还允许在每个不同的图像尺度上修改潜在空间,以仅在生成的图像的特定细节级别上操作特征。

论文:Adam: A Method for Stochastic Optimization

链接:https://arxiv.org/abs/1412.6980

    Adam 由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想。虽然近来有对 Adam 性能提出质疑的论文出现,但它依然是深度学习中最受欢迎的目标函数。

论文:Neural Machine Translation by Jointly Learning to Align and Translate(attention 机制)

链接:https://arxiv.org/abs/1409.0473https://arxiv.org/abs/1409.0473

    这篇论文介绍了注意力机制的思路。与其将所有信息压缩到一个 RNN 的隐层中,不如将整个语境保存在内存中。这使得所有的输出都能和输入对应。除了在机器翻译中使用外,attention 机制还被用于 GAN 等模型中。


2015 ResNet、批归一化

论文:Deep Residual Learning for Image Recognition
链接:https://arxiv.org/abs/1512.03385

    大名鼎鼎的 ResNet,从 ResNet 开始,神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研究的作者是何恺明、张祥雨、任少卿和孙剑。

    最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题,如今 Residual Block 已经成为了几乎所有 CNN 结构中的基本构造。 这个想法很简单:将输入(input)从卷积层的每个块添加到输出(output)。残差网络之后的启示是,神经网络不应分解为更多的层数,在最不理想的情况下,其他层可以简单设置为恒等映射(identity apping)。但在实际情况中,更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射,并且还减少了梯度消失的问题。

    尽管并不复杂,但残差网络很大程度上优于常规的 CNN 架构,尤其在应用于更深层的网络上时。

    今年是CNN网络最活跃的一年,每种CNN算法都想争夺第一。比较有名的文章有:
[1]Going Deeper with Convolutions.
    Inception架构基于分解卷积的思想来减少参数的数量并使激活更稀疏。这允许更深层次的嵌套,这有助于GoogLeNet,也在本文中介绍,成为2014年ILSVRC的SOTA网络。

[2]Very Deep Convolutional Networks for Large-Scale Image Recognition.
    这是CNNs历史上另一项非常重要的工作,本文介绍了VGG网络。这篇论文对于探索仅仅使用3x3卷积,而不是像其他大多数网络那样使用更大的卷积具有重要的意义。这大大减少了参数的数量。
[3]Neural Ordinary Differential Equations.   

    赢得NIPS 2018最佳论文奖的《神经网络》(Neural ODEs)将残差和微分方程进行了类比。其核心思想是将剩余网络看作连续变换的离散化。然后可以将剩余网络定义为由ODE参数化的,这可以使用现成的解决方案来解决。
论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift(批归一化)
链接:https://arxiv.org/abs/1502.03167

    批归一化(Batch normalization)是如今几乎所有神经网络的主流趋势。批归一基于另外一个简单但是很棒的想法:在训练过程中保持均值和方差统计,借此将 activation 的范围变换为零均值和单位方差。

    关于批归一化效果的确切原因还未有定论,但从实践上说确实有效的。当年比较有名的归一化文章有:

    层归一化(Layer Normalization)、实例归一化(Instance Normalization)、组归一化(Group Normalization)基于聚合统计信息的不同方式,出现了许多其他替代方法:在一个批处理中,同时使用批处理和通道,或者分别使用批处理和多个通道。当不希望批处理和/或通道中的不同样本相互干扰时,这些技术是有用的——GANs就是一个很好的例子。


2016 AlphaGo

   AlphaGo论文(Nature):Mastering the game of Go with deep neural networks and tree search.

链接:https://www.nature.com/articles/nature16961

    很多人对于现代 AI 的理解始于 DeepMind 的围棋程序 AlphaGo。AlphaGo 研究项目始于 2014 年,目的是为了测试一个使用深度学习的神经网络如何在 Go 上竞争。

    AlphaGo 比以前的 Go 程序有了显着的改进,在与其他可用围棋程序(包括 Crazy Stone 和 Zen)的 500 场比赛中,在单台计算机上运行的 AlphaGo 赢得了除一个之外的所有胜利,而运行在多台计算机上的 AlphaGo 赢得了与其他 Go 程序对战的所有 500 场比赛,在与单台计算机上运行的 AlphaGo 比赛中赢下了 77%的对阵。2015 年 10 月的分布式版本使用了 1,202 个 CPU 和 176 个 GPU,当时它以 5: 0 的比分击败了欧洲围棋冠军樊麾(职业 2 段选手),轰动一时。

    这是计算机围棋程序第一次在全局棋盘(19 × 19)且无让子的情况下击败了人类职业棋手。2016 年 3 月,通过自我对弈进行练习的加强版 AlphaGo 在比赛中以 4: 1 击败了世界围棋冠军李世石,成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序,载入史册。赛后,AlphaGo 被韩国棋院授予名誉职业九段的称号。

另外一篇AlphaGo Nature论文:Mastering the game of Go without human knowledge

论文链接:https://www.nature.com/articles/nature24270

    作为 AlphaGo 的后继版本,2017 年 10 月,DeepMind 发布最新强化版的 AlphaGo Zero,这是一个无需用到人类专业棋谱的版本,比之前的版本都强大。通过自我对弈,AlphaGo Zero 经过三天的学习就超越了 AlphaGo Lee 版本的水平,21 天后达到 AlphaGo Maseter 的实力,40 天内超越之前所有版本。


2017 Transform、NAS

论文:Attention Is All You Need

链接:https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

    著名的 Transformer 架构出现了。2017 年 6 月,谷歌宣布又在机器翻译上更进了一步,实现了完全基于 attention 的 Transformer 机器翻译网络架构,并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩,实现了新的最佳水平。

    在编码器-解码器配置中,显性序列显性转导模型(dominant sequence transduction model)基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制(attention mechanism)连接编码器和解码器。

    谷歌提出了一种新型的简单网络架构——Transformer,它完全基于注意力机制,彻底放弃了循环和卷积。两项机器翻译任务的实验表明,这些模型的翻译质量更优,同时更并行,所需训练时间也大大减少。新的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩,领先当前现有的最佳结果(包括集成模型)超过 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译任务上,在 8 块 GPU 上训练了 3.5 天之后,新模型获得了新的单模型顶级 BLEU 得分 41.0,只是目前文献中最佳模型训练成本的一小部分。

    Transformer 在其他任务上也泛化很好,把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

论文:Neural Architecture Search with Reinforcement Learning

链接:https://openreview.net/forum?id=r1Ue8Hcxg

    神经结构搜索(NAS)表示自动设计人工神经网络(ANN)的过程,人工神经网络是机器学习领域中广泛使用的模型。NAS 的各种方法设计出的神经网络,其性能与手工设计的架构相当甚至更优越。可以根据搜索空间,搜索策略和性能评估策略三个方面对 NAS 的方法进行分类。其他方法,如《Regularized Evolution for Image Classifier Architecture Search》(即 AmoebaNet)使用了进化算法。


2018 预训练模型

论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

链接:https://arxiv.org/abs/1810.04805

    本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同,BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型,其性能超越许多使用任务特定架构的系统,刷新了 11 项 NLP 任务的当前最优性能记录。

    自 BERT 被提出以来,基于 Transformer 的语言模型呈井喷之势。这些论文尚需时间考验,还很难说哪一个最具影响力。

[1]Deep contextualized word representations.

    前面提到的ELMo论文。ELMo可以说是第一个上下文文本嵌入模型;然而,Bert在实践中越来越受欢迎。

[2]Improving Language Understanding by Generative Pre-Training.

    这篇由OpenAI撰写的前面提到的GPT论文,探讨了使用相同的预先训练的LM下游来解决许多不同类型的问题,只需要进行少量的微调。特别是考虑到从头开始训练一个现代语言模型的代价,这种想法已经变得非常普遍。

[3]Language Models are Unsupervised Multitask Learners.

    GPT2是OpenAI对GPT的后续,在很多意义上它只是GPT的一个扩展版本。它有更多的参数(多达15亿个!),更多的训练数据,以及更好的全面测试复杂性。它还展示了跨数据集的令人印象深刻的泛化水平,并为超大网络的泛化能力提供了进一步的证据。然而,它出名的原因是其令人印象深刻的文本生成能力。

[4]Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.

    基于转换的模型有一个固定的注意力窗口,这阻止了对长期环境的关注。Transformer-XL试图通过关注前一个窗口的一些上下文来解决这个问题(尽管为了计算的可行性,没有传播梯度),这允许更长的有效注意窗口。

[5]XLNet: Generalized Autoregressive Pretraining for Language Understanding.

    XLNet以另一种方式解决了BERT面临的“欺骗”困境。XLNet是单向的;然而,令牌是按照任意顺序排列的,利用了转换器内建的不变性来输入顺序。这使得网络能够有效地双向运行,同时保留了单向性的计算优势。XLNet还集成了来自Transformer-XL的思想,以获得更大的有效窗口。

[6]Neural Machine Translation of Rare Words with Subword Units.

    更好的标记化技术也是最近语言建模热潮的核心部分。通过确保所有单词都是可分段标记的,从而消除了单词外标记的必要性。


2019 深度学习原理改进

论文:Deep Double Descent: Where Bigger Models and More Data Hurt.

链接:https://arxiv.org/abs/1912.02292

    在本文中研究者证明,各种现代深度学习任务都表现出「双重下降」现象,并且随着模型尺寸的增加,性能首先变差,然后变好。此外,他们表明双重下降不仅作为模型大小的函数出现,而且还可以作为训练时间点数量的函数。研究者通过定义一个新的复杂性度量(称为有效模型复杂性,Effective Model Complexity)来统一上述现象,并针对该度量推测一个广义的双重下降。此外,他们对模型复杂性的概念使其能够确定某些方案,在这些方案中,增加(甚至四倍)训练样本的数量实际上会损害测试性能。

论文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

链接:https://arxiv.org/abs/1803.03635

    研究者们发现,标准的神经网络剪枝技术会自然地发现子网络,这些子网络经过初始化后能够有效进行训练。基于这些结果,研究者提出了「彩票假设」(lottery ticket hypothesis):密集、随机初始化的前馈网络包含子网络(「中奖彩票」),当独立训练时,这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。


欢迎访问

作者GitHub:https://github.com/yinizhilian/NLP_Share

作者知乎:https://www.zhihu.com/people/wangjini521/activities


Attention:欢迎关注AINLPer微信公众号,了解更多最新的关于深度学习、自然语言处理相关的知识。

长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~

来都来了,点个【在看】再走吧~~~



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存