查看原文
其他

刚刚!斯坦福发布 AlpacaFarm (羊驼农场),可将RLHF人工成本降低45倍!(开源)

ShuYini AINLPer 2023-07-10
点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 主流的大型语言模型训练都离不开RLHF(人工反馈强化学习),其主要思想是使用人类专家提供的反馈示例来指导模型的学习过程,它可以加速强化学习过程,提高大模型的性能,但「目前RLHF这个过程既复杂又昂贵」

 针对RLHF这个问题,学术界目前主要有两种解决方法:「1)避开RLHF」,比如Meta最近研究的“Meta最新模型:LIMA-65B,没有RLHF,模型效果远胜Alpaca!!”,验证了精心制作的少量标注数据同样能达到不错的效果。2)「简化RLHF」,就是今天给大家分享的这篇文章:斯坦福发布了一个名为AlpacaFarm(羊驼农场)的模拟器,旨在降低训练语言模型的成本,且比人工成本低45倍,并表现出与人类反馈的高度一致性,同时也为RLHF的研究开辟了新的道路。

Paper:https://tatsu-lab.github.io/alpaca_farm_paper.pdf

Code:https://github.com/tatsu-lab/alpaca_farm

背景介绍

 大型语言模型 (LLM)在遵循多样化和开放式指令方面展示了前所未有的能力。这些成就通常归因于使用人工反馈对预训练的LLM进行微调,但由于缺乏LLM具体训练方法的公开信息,我们对于这一过程知之甚少。例如,最近发现只有 OpenAI 模型的 Instruct 系列中的 Davinci-003 模型使用强化学习 (RL) 和 PPO 算法,导致一些人质疑 RL 在训练过程中的重要性。理解和改进这些方法需要复现这一训练过程,但考虑到RLHF方法的成本和复杂性,这仍然具有挑战性。

 为此,本文目标是促进人类反馈中学习方法在指令遵循模型研究和发展,并确定了三个主要挑战:「高成本的标注数据」「模型开发的自动化评估」、以及「现有方法参考实现」

 为了应对这三个挑战,斯坦福推出了AlpacaFarm,如下图所示。这是一个能够以低成本进行实验的模拟沙箱。使用 AlpacaFarm,研究人员可以在模拟中快速迭代方法开发,并将这些见解转化为构建具有实际人类反馈的高性能模型。

AlpacaFarm

 AlpacaFarm 建立在Alpaca 52k指令数据集的基础上。为研究RLHF方法,本文遵循类似Long等人的数据拆分方法,将10k指令数据作为备用,剩余将42k指令数据拆分成4部分:

  • 有监督微调(SFT)拆分:10k数据用于微调基本指令遵循LLM,用于随后的步骤。
  • 成对偏好(PREF)拆分:10k指令数据,基于此数据收集成对响应数据。
  • 无标签拆分:20k无标签指令数据,用于算法(如PPO)。
  • 验证拆分:2k数据用于开发和调整。

 为了促进对RLHF的研究,AlpacaFarm解决了面临的三个主要挑战:「高成本的数据标注」「模型开发的自动化评估」、以及「现有方法参考实现」

高成本的数据标注

 AlpacaFarm针对第一个挑战:高成本的数据标注挑战。「使用API LLMs模拟了人工标注,降低了成本并提高了效率」。为了收集模拟反馈数据,设计了一些API LLMs的提示(例如GPT-4),让我们可以模拟人工实现对数据集的比较,「与众包人工相比,成本降低了45倍」。并通过调整提示来准确捕捉人工标注的特征,例如:质量判断、标注人员的差异、风格偏好等。

 通过这种设计,我们证明了该模拟方法的准确性。当我们在模拟中训练和开发方法时,这些方法的排名与我们使用实际人类反馈训练和开发相同方法时所看到的非常一致。「下图显示了 AlpacaFarm 模拟工作流程和人工反馈工作流程产生的方法排名之间的高度相关性」。此属性至关重要,因为它确保从模拟中得出的经验结论在实践中可能成立。

「除了方法层面的相关性之外,该模拟方法还可以展示出了奖励模型过度优化的现象」,在这种情况下,针对替代奖励的持续RLHF训练可能会影响模型方法的性能。下图比较了人类反馈(左)和AlpacaFarm(右)上的这种现象,我们观察到AlpacaFarm捕获了模型性能的正确定性行为,最初是提高的,然后随着RLHF训练的继续而下降。

模型自动化评估

 AlpacaFarm针对第二个挑战:模型开发的自动化评估。由于人工评估成本高昂且无法复制,缺乏真实的人类互动数据,以及自然人类指令的多样性,因此改进开放式指令跟随的评估一直具有挑战性。「为了解决这个问题,作者将Alpaca 7B的实时用户交互数据作为指导,结合多种现有公共评估数据集(Self-instruct, Anthropic helpfulness, Open assistant, Koala, and Vicuna)模拟数据分布」

 根据这些评估指令数据集,比较了RLHF模型与Davinci003模型的响应,并测量了RLHF模型的首选次数,并将这个数据称为胜率。对评估数据上的系统排名的定量评估显示,系统排名与实时用户指令上的系统排名高度相关,如下图所示。这个结果表明,聚合现有的公共数据可以很好地近似处理简单的真实指令的性能。

现有参考方法的实现

 AlpacaFarm针对第三个挑战:现有方法参考实现。我们实现和测试了几种流行的学习算法,包括PPO、Expert Iteration和Quark,并公布了参考实现。在本文研究的方法中,「已被证明在其他领域(如奖励条件反射)有效的更简单的方法并不比我们最初的SFT模型更好,这突出了在真实指令遵循设置中测试这些算法的重要性」

 同时,在这几个方法中,具有替代奖励模型的PPO是训练时间最有效的方法,在我们的排行榜中,相比Davinci003,将指令调优LLaMA-7B模型的胜率从44%提高到55%,甚至要优于ChatGPT,如下图所示。 相比之下,已在更简单任务上验证的其他基线模型效果并不好,这体现了突出了在真实的指令跟踪设置中测试这些算法的重要性

结论

 大型语言模型(ChatGPT等)的学习过程,因其良好的指令跟踪能力而被广泛采用。然而,这种学习过程具有成本高,并且缺乏参考方法实现等问题。为了解决这些挑战,「斯坦福开发了AlpacaFarm模拟器,能以较低成本进行学习反馈相关的研究和开发」。设计了LLM提示来模拟人类反馈,其成本仅为众包工人的45倍,并具有与人类的高一致性;提出了一种自动评估方法,并通过真实世界的互动指令验证其可靠性;实现和测试了几种流行的学习算法,包括PPO、Expert Iteration和Quark,并公布了参考实现。

推荐阅读

[1]Meta最新模型LIMA,没有RLHF,远胜Alpaca!!

[2]强!中科院调研了27个大模型,并指出5个重要挑战

[3]三种Prompt方法大幅提升大模型LLMs推理能力

[4]一文了解大型语言模型的上下文学习能力(ICL)

[5]大型语言模型落地对话系统,该从哪些方面入手?

[6]MPT-7B:可商用的开源模型,效果堪比LLaMA-7B

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存