查看原文
其他

重磅!| NLP不断突破界限,2023 十篇必读的顶级NLP论文!

ShuYini AINLPer 2023-07-10

引言

 从2018年的BERT,到2020年的GPT-3,再到现在爆火的chatGPT,自然语言处理(NLP)技术的快速发展,并且不断突破原有的界限。作为NLP研究人员/爱好者来说,及时地了解NLP最新技术就显得至关重要。为此,今天给大家分享10篇2023年的顶级NLP论文,其中主要包括:语言模型、训练优化、模型攻击、多模态推理、文本生成辨识等最新进展,相信看完你对目前NLP技术发展有一个更新的认识!

10篇文章获取,后台回复:2023开年顶级论文

Toolformer

 当前预训练语言模型特别牛,它们只需几个示例或文本说明就可以解决新任务。然而,它们在简单的数学运算、事实查找等基本功能上却表现不佳。如何将这两者结合起来呢?那么就是接下来要介绍的Toolformer! Toolformer是一个模型,可以通过简单的API自学使用外部工具。经过训练,可以决定调用哪些API、何时调用它们、传递哪些参数以及如何最好地将结果合并到未来的Token预测中。它采用自监督的方式实现该功能,只需要为每个API进行少量演示。

 Toolformer包含一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。最好重要的是它在零样本情况下,在不牺牲其核心语言能力的情况下,在各种下游任务中都实现了大幅提升,并可比拟更大的模型。Toolformer将语言模型与软件工具的应用结合,未来能够让我们的生活变得更加轻松。

SWARM 并行性

 在本文中,作者解决了训练具有数十亿参数的大型深度学习模型的问题,众所周知,这需要价格昂贵的专用 HPC 集群。为了解决这个限制,本文探索了训练这些大型模型的替代训练方法,例如使用廉价的实例或汇集来自多个区域的资源。

 然后,它分析了现有模型并行算法在这些条件下的性能表现,确定了训练大型模型时通信密集度降低的配置。为此引入了SWARM并行性,这是一种新颖的模型并行训练算法,专为连接不良、异构和不可靠的设备而设计。

「SWARM 在节点之间创建临时随机管道,在发生故障时重新平衡这些管道,这是对现有大规模训练方法的重大改进」。作者根据经验验证了他们的发现,并将 SWARM 并行性与现有方法进行了比较。

 为了进一步展示本文方法的优势,本文将自己的见解与压缩策略相结合,在低于 200Mb/s 网络的抢占式T4GPU上训练具有1B共享参数(共享前大约 13B)的大型Transformer语言模型。实验结果表现,SWARM并行性有可能彻底改变大型模型的训练方式,使研究人员和从业者等人更容易获得并具有成本效益。

符合人类偏好

 在本文中,作者深入研究语言模型(LM)以及如何训练它们生成符合人类偏好的文本。虽然LM被预先编程为模仿互联网文本,这可能会导致一些不良结果。但是,「如果可以教LM生成连贯、信息丰富、符合人类偏好的文本呢」

 为解决这个问题,作者对预训练LM的五个目标进行了基准测试,并在三个任务中提供了人类反馈。研究了这些目标如何影响预训练LM的对齐和能力之间的平衡。发现了一种Pareto-optimal方法:条件训练。

 条件训练主要是教LM学习根据它们的人类偏好分数(由奖励模型给出)在Tokens上的分布。得到的结果出奇的好,条件训练将不良内容的发生率降低了一个数量级,无论是在没有提示的情况下生成还是在对抗性选择的提示下生成时。

 此外,条件训练在任务特定微调之前和之后都保持了标准LM预训练的下游任务性能。与标准LM预训练相比,使用人工反馈进行预训练的偏好满意度要高得多,然后根据反馈进行微调。 总体而言,结果表明,在预训练LM时,它应该超越模仿学习,并从训练开始就纳入人类的偏好。这是确保语言模型生成符合人类偏好的文本的一大进步,看到这项技术在未来的发展方向令人兴奋!

多模态思维链

 在本文中,作者介绍了「一种突破性的大型语言模型(LLM)新方法,该方法结合了文本和视觉以实现更好的推理性能」。这个新模型被称为Multimodal-CoT,它建立在思维链(CoT)方法的基础上,以生成中间推理链作为推断答案的基本原理。最大的不同之处在于,这一次,该模型将语言和视觉(图像)模式合并到一个两阶段框架中,将基本原理生成和答案推断分开。

 多模态CoT模型旨在利用基于多模态信息实现结果生成的基本原理,从而提高答案推断的准确性。结果不言自明:具有不到1亿个参数的模型在ScienceQA基准上比以前最先进的LLM(GPT-3.5)高出16个百分点(75.17%至91.68%的准确率),甚至超过了人类的表现。 Multimodal-CoT的代码在Github(https://github.com/amazon-science/mm-cot?ref=context-by-cohere)上公开可用,因此,如果您有兴趣探索这项尖端技术,只需单击一下即可。通过这个新模型,作者在开发大型语言模型和多模态推理方面迈出了重要的一步,为人工智能和机器学习领域更令人兴奋的进步铺平了道路。

模型病毒攻击

 在本文中,作者深入研究了深度学习模型中数据集中毒攻击的危险。这些攻击将恶意示例引入到模型的性能中,这可能会产生严重的后果。作者介绍了「两种新的实用攻击,可以毒害10个流行的数据集」

 第一种攻击是分屏视图中毒,它利用了互联网内容的易变特性。通过操纵注释者对数据集的视图,他们可以引入恶意示例,而后续客户端不会注意到这些恶意示例。这种攻击尤其阴险,因为它利用了无效的信任假设。令人震惊的是,作者发现他们只需60美元就可以毒害0.01%的LAION-400M或COYO-700M数据集。

 第二种攻击是“前沿中毒”(frontrunning poisoning),目标是网络规模的数据集,这些数据集定期对众包内容进行快照,比如维基百科(Wikipedia)。攻击者只需要一个有时间限制的窗口就可以将恶意示例注入数据集。

 针对这些攻击,作者通知了每个受影响数据集的维护者,并推荐了几种低开销的防御措施。这些防御措施将有助于降低数据集中毒的风险,并保护深度学习模型免受恶意攻击。

优化算法发现

 在本文中,作者介绍了一种新的算法发现方法,将其框定为程序搜索。他们应用这种方法来「发现深度神经网络训练的优化算法」,并演示了它如何弥合代理任务和目标任务之间的泛化差距。

 他们的方法利用有效的搜索技术来探索无限和稀疏的程序空间。为了简化流程,他们还引入了课程选择和简化策略。他们的方法的结果是发现了一种新的优化算法,Lion(进化符号动量)。

 与Adam和Adafactor等广泛使用的优化器相比,Lion的内存效率更高,因为它只跟踪动量。它与自适应优化器的另一个不同之处在于,它的更新对于通过符号操作计算的每个参数具有相同的大小。 作者在各种模型和任务上测试了Lion,并表明它在几个学习领域上都优于Adam,包括图像分类和扩散模型。在某些情况下,Lion还需要更小的学习率,因为符号函数产生的更新的范数更大。然而,作者也承认了Lion的局限性,并指出了其改进很小或在统计上不显著的情况。它们将Lion的实现公开地提供给其他人使用和构建。

人类反馈强化学习(RLHF)

 在本文中,作者深入研究了强化学习在微调语言模型中的应用。具体来说,他们探索了「“人类反馈强化学习(RLHF)”算法,该算法在通过人类反馈将GPT系列模型与指令对齐方面取得了显著的成功」

 然而,作者指出,底层的RL算法并不是“在公园里散步”,而需要额外的奖励和价值网络训练管道。因此,他们提出了另一种方法:重新标记原始反馈,并以监督的方式训练模型以更好地对齐。该算法除了原有的语言模型外,不需要任何额外的参数,最大限度地重用了预训练管道。

 为了实现这一目标,作者将语言模型的指令对齐问题制定为决策中的目标实现问题。他们提出了一种新的算法,称为后见指令重新标签(HIR),该算法将语言模型与基于后见指令重新标签的反馈的指令对齐。 由此产生的两阶段算法揭示了一系列无奖励的方法,这些方法利用重新标记的反馈作为奖励的替代品。作者评估了HIR在12个具有挑战性的BigBench推理任务上的性能,并表明它优于基线算法,与监督微调相当,甚至超过监督微调。总之,本文提供了一种有趣的微调语言模型的新方法,有可能降低强化学习算法的复杂性并简化训练过程。

Transformers替代品

 在本文中,作者向我们介绍了「Hyena,它是Transformers中注意力运算的Subquadratic替代品」。虽然注意力一直是 Transformers 的核心构建块,但它的序列长度成本是二次方的,这使得它很难访问大量的上下文。为了弥合这一差距,作者提出了 Hyena,它是通过交错隐式参数化长卷积和数据控制门控构建的。 Hyena显著提高对数千到数十万个标记序列的回忆和推理任务的准确性。事实上,它比依赖状态空间和其他隐式和显式方法的运算符提高了50多点的准确性。不仅如此,Hyena还可以匹配基于注意力的模型,为标准数据集(WikiText103 和 The Pile)中的语言建模建立了一个新的state-of-the-art的dense-attention-free架构。

 除了准确性之外,Hyena还可以将序列长度为2K时所需的训练计算减少20%。它的运算符在序列长度8K时的速度也是高度优化注意力的两倍,在序列长度64K时快100倍。这意味着Hyena不仅强大,而且效率高。总的来说,Hyena 为深度学习中的Subquadratic方法提出了一种很有前途的新方法,可能对该领域产生广泛的影响。

语言模型中提取知识图谱

 语言模型正变得越来越复杂,随着它们的不断发展,它们最终将能够从它们所训练的大量文本中提取出大量的事实知识。这些丰富的知识可以用于增强下游的NLP任务。但是如何以一种可解释的方式来表示这些知识呢?

 作者提出了「一种从给定语言模型中提取事实知识图谱的新方法」。他们首先“爬取”语言模型的内部知识库,并围绕种子实体扩展知识图。爬行过程被分解为子任务,通过特殊设计的提示来实现,以确保高精度和召回率。

 作者在从几十个种子实体爬取的图上评估了他们的方法,发现它产生了82%到92%的高精度图。该过程还为每个实体发出了合理数量的事实,这对实际应用很重要。这项工作是建立更多可解释的语言模型的重要一步,这些模型可以提供从文本中获得的知识的结构化表示。

生成文本分辨

「在本文中,作者解决了检测机器生成文本的问题,随着大型语言模型(LLMs)的发展,这个问题变得越来越困难」。这些模型非常擅长生成文本,以至于越来越难以分辨一篇文章是由人类还是机器生成的。例如,学生可以使用这些模型来完成他们的写作作业,这使得教师更难评估他们的工作。

 为了解决这个问题,作者提出了一种名为DetectGPT的新方法,该方法使用模型的对数概率函数的曲率来识别给定的通道是否由所讨论的LLM生成。这种新方法不需要单独的分类器或真实或生成段落的数据集,也不会显式地为生成的文本添加水印。 为了测试DetectGPT的有效性,作者使用它来检测由大量20B参数GPT-NeoX模型生成的假新闻文章。结果令人印象深刻,DetectGPT在检测模型样本方面明显优于现有的零镜头方法。最强的零拍基线实现了0.81 AUROC,而DetectGPT实现了令人印象深刻的0.95 AUROC。

推荐阅读

[1] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !

[2] 2023年!自然语言处理 10 大预训练模型

[3] 颠覆传统神经网络!19个神经元驾驶一辆车!

[4]【超详细!】一文看懂从逻辑回归(Logistic)到神经网络(NN)

[5] 北大 |一种细粒度的两阶段训练框架(FiTs)(开放源码)

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存