查看原文
其他

海外AI大模型梳理:技术革命的本源

李沐华、李雪薇 计算机文艺复兴 2023-06-22

1、OpenAI:GPT系列大模型一骑绝尘,智能化程度提升迅速

OpenAI正是基于Transformer基础模型推出了GPT系列大模型。GPT(Generative Pre-trained Transformer)即生成式预训练Transformer模型,模型被设计为对输入的单词进行理解和响应并生成新单词,预训练代表着GPT通过填空方法来对文本进行训练。在机器学习里,存在判别式模式(discriminative model)和生成式模式(Generative model)两种类型,相比之下,生成式模型更适合大数据学习,判别式模型更适合人工标注的有效数据集,因而,生成式模型更适合实现预训练。

 

GPT模型依托于Transformer解除了顺序关联和对监督学习的依赖性的前提。在NLP领域,基于原始文本进行有效学习的能力能够大幅降低对于监督学习的依赖,而很多深度学习算法要求大量手动标注数据,该过程极大限制了其在诸多特定领域的适配性。在考虑以上局限性的前提下,通过对未标记文本的不同语料库进行语言模型的生成式预训练,然后对每个特定任务进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输,同时对基础模型架构的更改最小。



GPT相比于Transformer等模型进行了显著简化。相比于Transformer,GPT训练了一个12层仅decoder的解码器,原Transformer模型中包含编码器和解码器两部分(编码器和解码器作用在于对输入和输出的内容进行操作,成为模型能够认识的语言或格式)。同时,相比于Google的BERT,GPT仅采用上文预测单词,而BERT采用了基于上下文双向的预测手段。



GPT-2实现执行任务多样性,开始学习在不需要明确监督的情况下执行数量惊人的任务。GPT-2在GPT的基础上进行诸多改进,在GPT-2阶段,OpenAI去掉了GPT第一阶段的有监督微调(fine-tuning),成为了无监督模型。GPT-2大模型是一个1.5B参数的Transformer,在其论文中它在8个测试语言建模数据集中的7个数据集上实现了当时最先进的结果。GPT-2模型中,Transfomer堆叠至48层,数据集增加到8百万量级的网页、大小为40GB的文本。

 

GPT-2通过调整原模型和采用多任务方式来让AI更贴近“通才” 水平。机器学习系统通过使用大型数据集、高容量模型和监督学习的组合,在训练任务方面表现出色,然而这些系统较为脆弱,对数据分布和任务规范的轻微变化非常敏感,因而使得AI表现更像狭义专家,并非通才。考虑到这些局限性,GPT-2要实现的目标是转向更通用的系统,使其可以执行许多任务,最终无需为每个任务手动创建和标记训练数据集。而GPT-2的核心手段是采用多任务模型(Multi-task),其跟传统机器学习需要专门的标注数据集不同(从而训练出专业AI),多任务模型不采用专门AI手段,而是在海量数据喂养训练的基础上,适配任何任务形式。



GPT-3取得突破性进展,任务结果难以与人类作品区分开来。GPT-2训练结果也有不达预期之处,所存在的问题也亟待优化。例如,在GPT-2阶段,尽管其模型体系结构与任务无关,但仍然需要任务特定的数据集和任务特定的微调:要在所需任务上实现强大的性能,通常需要对特定于该任务的数千到数十万个示例的数据集进行微调,因而成本极高。相比于GPT-2采用零次学习(zero-shot),GPT-3采用了少量样本(few-shot)加入训练。GPT-3是一个具有1750亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多10倍,GPT-3在许多NLP数据集上都有很强的性能(包括翻译、问题解答和完形填空任务),以及一些需要动态推理或领域适应的任务(如解译单词、在句子中使用一个新单词或执行三位数算术),GPT-3也可以实现新闻文章样本生成等。GPT-3论文中论述到,虽然少量样本学习(few-shot)稍逊色于人工微调,但在无监督下是最优的,证明了GPT-3相比于GPT-2的优越性。


InstructGPT(GPT-3.5)模型在GPT-3基础上进一步强化。使语言模型更大并不意味着它们能够更好地遵循用户的意图,例如大型语言模型可以生成不真实、有毒或对用户毫无帮助的输出,即这些模型与其用户不一致。另外,GPT-3虽然选择了少样本学习(few-shot)和继续坚持了GPT-2的无监督学习,但基于few-shot的效果也稍逊于监督微调(fine-tuning)的方式,仍有改良空间。基于以上背景,OpenAI在GPT-3基础上根据人类反馈的强化学习方案RHLF(reinforcement learning from human feedback),训练出奖励模型(reward model)去训练学习模型(即:用AI训练AI的思路)。InstructGPT使用来自人类反馈的强化学习方案RLHF,通过对大语言模型进行微调,从而能够在参数减少的情况下,实现优于GPT-3的功能。



InstructGPT与ChatGPT属于相同代际模型, ChatGPT的发布率先引爆市场。GPT-3只解决了知识存储问题,尚未很好解决“知识怎么调用”的问题,而ChatGPT解决了这一部分,所以GPT-3问世两年所得到的关注远不及ChatGPT。ChatGPT是在InstructGPT的基础上增加了Chat属性,且开放了公众测试,ChatGPT提升了理解人类思维的准确性的原因也在于利用了基于人类反馈数据的系统进行模型训练。

 

GPT-4是OpenAI在深度学习扩展方面的最新里程碑。根据微软发布的GPT-4论文,GPT-4已经可被视为一个通用人工智能的早期版本。GPT-4 是一个大型多模态模型(接受图像和文本输入、输出),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中表现出人类水平的性能。例如,它在模拟律师资格考试中的成绩位于前10%的考生,而GPT-3.5的成绩在后10%。GPT-4不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度,而且它还能够将多个领域的技能和概念统一起来,并能理解其复杂概念。

 

除了生成能力,GPT-4还具有解释性、组合性和空间性能力。在视觉范畴内,虽然GPT-4只接受文本训练,但GPT-4不仅从训练数据中的类似示例中复制代码,而且能够处理真正的视觉任务,充分证明了该模型操作图像的强大能力。另外,GPT-4在草图生成方面,能够结合运用Stable Difusion的能力,同时GPT-4针对音乐以及编程的学习创造能力也得到了验证。



2、微软:与OpenAI深度绑定,占得行业先机

微软陪跑OpenAI,双方各取所需。本质上,OpenAI的做法是将公司出租给微软,租期取决于OpenAI的盈利速度。2019年微软首次注资OpenAI后,双方开始在微软的Azure云计算服务上合作开发人工智能超级计算技术,同时OpenAI逐渐将云计算服务从谷歌云迁移到Azure。微软与OpenAI合作符合双方各自需求点,一方面OpenAI亟需算力投入和商业化背书。另一方面,微软也需要OpenAI,微软2015年推出Tay聊天机器人十分受挫,在AI技术商业化应用方面日渐式微,当时在基础研究层面也尚无具备广泛影响力的产出,而AI能力,尤其大模型AI对于每一个大厂来均是防御性质的刚需领域,因而微软可通过OpenAI重获AI竞争力。

 

微软与OpenAI战略合作深入,占得行业先机。2020年,微软买断GPT-3基础技术许可,并获得了技术集成的优先授权。2021年微软再次投资,双方合作关系正式进入第二阶段,从合作探索期进入蜜月期。一方面,作为OpenAI的云提供商,在Azure中集中部署OpenAI开发的GPT、DALLE、Codex等各类工具,这也形成了OpenAI最早的收入来源——通过Azure向企业提供付费API和AI工具。与此同时,拥有OpenAI新技术商业化授权,微软开始将OpenAI工具与自有产品进行深度集成,并推出相应产品。例如,2021年6月基于Codex,微软联合OpenAI、GitHub 推出了AI代码补全工具GitHub Copilot,以月付费10 美元或年付费100美元的形式提供服务。2022年,微软开始通过Edge浏览器和Bing搜索引擎在部分国家和地区提供基于AI图像生成工具DALLE开发的Image creator新功能。同年10月,微软宣布将推出视觉设计工具Microsoft designer。微软也正将ChatGPT用于Office和搜索引擎Bing等产品中,以优化现有工具,改进产品功能。

 


2020年微软发布当时最大语言模型Turing-NLG,为更流畅的人机对话打下基础。在自然语言模型日趋大型的背景下,微软图灵项目推出了图灵自然语言生成(T-NLG)技术,该模型包含170亿参数量,是此前最大的语言模型英伟达“威震天”(Megatron)的两倍,是OpenAI模型GPT-2的10多倍。通过对比预训练的T-NLG模型在标准语言任务,例如WikiText-103和LAMBADA在下一个单词的预测准确度(越高越好)上的性能,都打破了已有的最好纪录。当时OpenAI使用了额外的处理技术(停用词过滤)来获得比独立模型更好的成绩,而Megatron和T-NLG都不使用停用词过滤技术。同时,在直接回答问题和零次回答能力上,T-NLG会直接用完整的句子回答问题,且无需上下文环境。为了使T-NLG尽可能通用,从而为各种类型的文本生成摘要,该项目在几乎所有公开可用的摘要数据集中以多任务方式调整了T-NLG模型,总计约有400万个训练实例。总之,T-NLG为对话更流畅的聊天机器人和数字助理等应用铺平了道路。



汲取“两家”所长,Megatron Turing-NLG(MT-NLG)再次刷新模型规模纪录。微软联手英伟达进一步打造的MT-NLG模型容纳5300亿参数,训练过程一共使用了4480块英伟达A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。MT-NLG融合英伟达最先进的GPU加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度,并用上千亿个token构建语料库,共同开发训练方法来优化效率和稳定性。具体实现上,通过借鉴英伟达Megatron-LM模型的GPU并行处理,以及微软开源的分布式训练框架DeepSpeed,创建3D并行系统,对于5300亿个参数的模型,每个模型副本跨越280个A100 GPU,节点内采用Megatron-LM的8路张量切片,节点间采用35路管道并行,然后再使用DeepSpeed的数据并行性进一步扩展到数千个GPU,最终在基于DGX SuperPOD的Selene超级计算机上完成混合精度训练。该模型在PiQA开发集和LAMBADA测试集上的零样本、单样本和少样本三种设置中都获得了最高的成绩。



打造不同AI领域功能融合的多模态基础模型,AI技术和模型大一统渐露曙光。2022年8月,微软亚洲研究院联合微软图灵团队推出了最新升级的BEiT-3预训练模型,在广泛的视觉及视觉-语言任务上,包括目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模态检索(Flickr30K,COCO)等,实现了SOTA的迁移性能。BEiT-3创新的设计和出色的表现为多模态研究打开了新思路,也预示着AI大一统趋势渐露曙光。

 

 

3、谷歌:扎根基础模型研发,引领技术革新 

构筑行业发展基石,大型基础模型持续优化升级。谷歌最早在2017年提出Transformer网络结构,成为了过去数年该领域大多数行业进展的基础。随后在2018年,谷歌提出的BERT模型,在11个NLP领域的任务上都刷新了以往的记录。和GPT相比,BERT最大的区别就是使用文本的上下文来训练模型,而GPT专注于文本生成,使用的是上文。BERT使用了Transformer的Encoder和Masked LM预训练方法,因此可以进行双向预测;而OpenAI GPT使用了Transformer的Decoder结构,利用了Decoder中的Mask,只能顺序预测。BERT无需调整结构就可以在不同的任务上进行微调,在当时是NLP领域最具有突破性的一项技术。



基于Transformer结构,T5明确了大模型性能提升路径。鉴于各个机构不断提出预训练目标函数,并不断收集更多训练语料,很难分析比较这些工作的有效贡献量,因此谷歌于2019年推出大模型——T5(Text-to-Text Transfer Transformer),将各种NLP任务(翻译、分类、回归、摘要生成等)都视为Text-to-Text任务,从而使得这些任务在训练(预训练和微调)时能够使用相同的目标函数,在测试时也能使用相同的解码过程,由此可以方便地评估在阅读理解、摘要生成、文本分类等一系列NLP任务上,不同的模型结构、预训练目标函数、无标签数据集等的影响。本质上T5提出的目的不是提出一个新方法,而是对NLP领域的技术支撑点提供较为全面的分析视角,分析各种训练技巧对模型性能提升的实际影响,从而采用合适的技巧预训练出一个好的模型。

 

谷歌LaMDA实现自然对话突破,释放与技术互动的更自然方式。在ChatGPT取得突破性成功之后,谷歌宣布了自己的聊天机器人谷歌Bard,而Bard这个技术形象背后是LaMDA在提供后端支撑。LaMDA是继BERT之后,谷歌于2021年推出的一款自然对话应用的语言模型。LaMDA建立在谷歌2020年发表的早期研究之上,该研究表明,基于Transformer的语言模型经过对话训练,可以学会谈论几乎任何事情。此后,谷歌还发现,一旦经过训练,LaMDA可以进行微调,从而大幅提高其反应的合理性和特异性。与其他大多数语言模型不同,LaMDA是在对话中训练的,在训练过程中它发现了一些区别于其他语言形式的开放式对话的细微差别。总之,LaMDA的推出虽然在技术上没有新突破,但却提供了很有价值的落地方案参考。



Switch Transformer模型进一步提升大模型参数,实现简单且高效计算。Switch Transformer的设计原则是以一种简单且高效计算的方式来最大化Transformer模型的参数数量。Switch Transformer拥有1.6万亿参数,超越了GPT-3的规模,成为史上首个万亿级语言模型。Switch Transformer是由混合专家(Mix of Expert,MoE)AI模型范式发展而来的,MoE模型是指将多个专家或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络(Gating Network)”来选择为任何给定数据要咨询哪些专家。其论文中指出,Switch Transformer使用了稀疏激活技术,该技术只使用了神经网络权重的子集,或者是转换模型内输入数据的参数,在相同计算资源下,其训练速度上比谷歌之前研发的最大模型T5-XXL还要快4倍。

 

谷歌通用稀疏语言模型GLaM在小样本学习上打败GPT-3。虽然大型语言模型可以通过简单地使用更多参数来获得更好的性能,但更有效地训练和使用这些模型也十分必要。鉴于此,谷歌在Switch Transformer推出的同年,研发出GLaM模型架构,GLaM也是混合专家模型(MoE),其在多个小样本学习任务上取得有竞争力的性能。谷歌首先构建了一个高质量、具有1.6万亿token的数据集以及开发文本质量过滤器,谷歌应用这个过滤器来生成Web网页的最终子集,并将其与书籍和维基百科数据相结合来创建最终的训练数据集。完整的GLaM总共有1.2T参数,每个MoE包含64个专家,总共32个MoE层,但在推理期间,模型只会激活97B的参数,占总参数的8%。最终谷歌证明了稀疏激活模型在达到与密集模型相似的zero-shot和one-shot性能时,训练时使用的数据显著减少。如果使用的数据量相同,稀疏型模型的表现明显更好。并且,GLaM训练时耗能要少于其他模型。




融合传感器模态与语言模型,相较于ChatGPT新增了视觉功能。2023年3月,谷歌和柏林工业大学AI研究团队推出了迄今最大视觉语言模型——PaLM-E多模态视觉语言模型(VLM),该模型具有5620亿个参数,集成了可控制机器人的视觉和语言能力,将真实世界的连续传感器模态直接纳入语言模型,从而建立单词和感知之间的联系,且该模型能够执行各种任务且无需重新训练,其相较于ChatGPT新增了视觉功能。PaLM-E的主要架构思想是将连续的、具体化的观察(如图像、状态估计或其他传感器模态)注入预先训练的语言模型的语言嵌入空间,这是通过将连续观测编码为与语言标记的嵌入空间具有相同维度的向量序列来实现的,因此,以类似于语言标记的方式将连续信息注入到语言模型中。PaLM-E是一种仅限解码器的LLM,它在给定前缀或提示的情况下自回归地生成文本完成。

 


基于大模型积累,实现视觉语言与机器人高水平实时互联。基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。因此,模型就能继续以处理语言的方式“理解”感官信息。而且,同一套PaLM-E模型能够达到实时控制机器人的水准。PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。但谷歌展示的Demo中的空间范围、物品种类、任务规划复杂度等条件还比较有限,随着深度学习模型愈发复杂,PaLM-E也将打开更多可行性应用空间。


合规声明:本文节选自正式入库研究报告,如需全文PDF请后台留言。


  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


ChatGPT相关报告

ChatGPT研究框架(80页PPT)

产业调研:一线专家眼中的ChatGPT

产业调研:医疗认知智能技术进展

海外ChatGPT公司有哪些已经落地的商业模式(深度)

Open AI发布GPT-4,超预期还是低于预期?

百度文心一言发布会详细纪要

产业调研:百度文心一言与GPT-4的差距有多大?

居然是微软打开了金山办公的市值空间

英伟达GTC大会万字纪要



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存