查看原文
其他

DTG:一种简单有效的Prompt方法,激发大模型思考判断能力!

ShuYini AINLPer 2023-07-10

点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

   尽管我们已经长大成人,但内心深处的孩童永远都存在。愿你在繁忙的生活中也能保持对生活中的美好事物的敏感和热爱。愿你永远保持年轻的心态,享受生活中的每一个美好瞬间。六一快乐,六月加油💪。

   今天给大家分享一篇关于大模型提示调优的paper,该文介绍了一种新的大语言模型的提示框架:Deliberate then Generate (DTG)。与现有提示方法不同的是,DTG不仅提供正确信息,而且还会提供包含错误的信息,来引导模型进行自我思考判断。该技术简单有效,可适用于各种文本生成任务。在20多个数据集和7个文本生成任务上进行广泛实验,其中包括摘要、翻译、对话等,实验结果显示DTG在多个文本生成任务上都要优于现有提示方法。

背景介绍

 随着模型和语料库规模的不断扩大,大语言模型(LLMs)在自然语言处理的各个领域取得了显著的成功。「考虑到LLMs的规模及其训练成本,探索有效的微调方法以适应下游任务是一个很值得关注的方向」。然而当面对强大的黑匣子LLMs应用时,目前的微调方法会存在一定的局限性,因为它需要访问模型的底层参数以及大量的计算资源支撑。所以现在对于大部分人来说,通过提示的方法调教模型是一个相对主流的方法。

 提示是人类与LLMs交互的一种通用方法,通常设计为一种指导LLMs朝着预期输出的指令任务。为了最大限度地利用LLMs在下游任务上的作用,需要精心设计提示,无论是手动设计还是自动设计。提示还提供了一种以自然语言方式与LLMs进行交互的方法,例如让它们利用外部工具、资源和模型,或者在生成中进行思维链式推理(CoT)。

 与此同时,一个基于交互过程迭代将先前回答融入提示的研究也正在进行,以此提高LLMs在推理任务上的准确性。「除了多步推理,基本提示仍然被广泛地运用在文本生成任务中,比如机器翻译和摘要」,其中先前的先进方法,例如思维链式推理,在这些任务中已经被证明是无效的。「在本文中,作者提出了DTG,这是一种简单而通用的提示方法,可以在各种文本生成任务中提高模型性能,而不需要特定于任务的设计」

DTG方法介绍

 与传统的正确信息提示不同,DTG方法加入了反馈机制,通过让模型发现文本中的错误并进行改正,提高语言使用能力。具体而言,这种方法分为三步:1)清晰明确地说明要求的任务,给出生成论据的指导;2)提供一个合成文本作为候选输出;3)通过鼓励模型发现潜在的错误并经过自我思考判断改进输出,推动训练过程。 上图展示了在摘要任务One-shot情况下,标准提示与本文DTG提示之间的对比情况。可以发现:「DTG的一个显着特点是它强调错误检测而不是即时响应」。DTG不是直接从给定的输入文本生成结果,而是首先根据输入文本和预定义错误类型,从而引导模型做出思考判断的决策,最终输出结果。这个思考判断过程构成了DTG方法的基石。此外,还可以提供一些演示,让LLM了解预期输出(以蓝色突出显示)和测试输入(以红色标记)。「DTG是一种通用的提示方法,只需对提示进行最少的修改即可轻松应用于任何文本生成任务」。如上图说明了用于特定生成任务的提示,表明提示定制是不同任务之间的需要,如黄色突出显示。 DTG的关键部分是合成文本的确定。简单来说,使用基线系统的输出作为合成文本是一种很自然的选择。然而,这样的基线文本只进行微小的修改,不能很好地触发LLM的思考判断能力。此外,「实验发现,候选文本与参考文本之间的相似性越低,生成的文本质量越好」。如上图所示,选择与参考文本具有不同相似性的句子作为合成句子,通常情况下,性能会随着相似性的增加而单调下降。

 因此,作者选择一个不包含任何正确信息的句子作为合成文本。可能的候选文本包括一个随机抽样的句子,或者更极端是一个空字符串,即:将“[SYS]”设置为“”。这两种选择都成功地促进了模型思考判断能力,并改善了多个文本生成任务的结果。DTG 具有以下特殊属性,可以引导 LLM 处理各种文本生成任务:

  • 简单:通过LLM 的单步推理即可获得最终结果,无需任何额外资源或成本。
  • 通用:它可以毫不费力地应用于范围广泛的文本生成任务,只需对提示进行最少的调整。

实验结果

1、「语言翻译评估」:下面比较了GPT标准提示和本文DTG提示在Microsoft Translator和WMT SoTA系统中的表现。实验包括1-shot和5-shot两种情况。实验结果显示,本文DTG提示方法符合先前研究的趋势,5-shot比1-shot在大多数语言对中表现更好。2、「摘要生成评估」,分别在CNN/DailyMail和GigaWord这两个广泛使用的摘要任务上进行了评估。结果表明,GPT模型的表现与在下游训练集上进行专门调整的Transformer相当。在Rouge指标方面,DTG相对于Transformer有进一步的提高,这证明了DTG在长期建模任务方面的有效性。3、「风格转换任务」:下表展示了GYAFC数据集中娱乐音乐(EM)和家庭关系(FR)两类风格转换任务的表现。显然,DTG方法促使GPT模型更正不准确的句子并生成更加精确的非正式语句。

推荐阅读

[1]5月总结,了解大语言模型最新进展:10篇论文,篇篇高能!

[2]斯坦福发布AlpacaFarm,RLHF人工成本降低45倍!

[3]Meta最新模型LIMA,没有RLHF,远胜Alpaca!!

[4]强!中科院调研了27个大模型,并指出5个重要挑战

[5]三种Prompt方法大幅提升大模型LLMs推理能力

[6]MPT-7B:可商用的开源模型,效果堪比LLaMA-7B

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存