InstructGPT 论文翻译与解读

此篇博文主要结合原论文和沐神的InstructGPT 论文精读【论文精读·48】视频进行翻译与解读。

题目

论文名为《Training language models to follow instructions with human feedback》,该论文发布于 2022-03-04,论文的作者由 20 位来自 OpenAI 的研究人员组成。题目直白的翻译是“使用人类反馈训练语言模型遵循指令”,大意是通过使用人类反馈来训练语言模型,使其能够更好地遵循用户的指令

摘要

摘要主要介绍以下几点:

  1. 研究背景及现状:让语言模型变得更大并不能让它们更好地理解用户的意图。例如,大型语言模型会产生不真实、有害或对用户毫无帮助的输出。换句话说,这些模型没有与用户对齐(aligned)。
  2. 提出的解决方法:论文展示了一种途径,通过人类反馈进行微调,使语言模型与用户在各种任务上的意图保持一致。
    • 首先使用两种方式收集了一组自然语言提示,一种是由标注人员编写的提示,另一种是通过 OpenAI API 提交的提示(Prompt)。然后,作者使用这些提示来收集标注人员所需的模型行为的演示数据集,并使用监督学习方法对 GPT-3 进行微调(注意,此处是指对已经过预训练的 GPT-3 模型进行微调)。这个过程旨在训练 GPT-3 遵循用户指令,并生成更符合用户意图的输出。
    • 然后,收集了一组模型输出的排名结果数据集,并使用强化学习方法从人类反馈中获得奖励信号,以指导模型生成更符合用户意图的输出。
  3. 取得的结果:最终的结果模型为 InstructGPT。在对提示分布进行人类评估时,尽管 1.3B 的 InstructGPT 比 175B GPT-3 的参数少了 100 倍,但前者的输出依然优于后者。此外,InstructGPT 模型在公共 NLP 数据集上显示了真实性的提高和有毒输出生成的减少,同时具有最小的性能退化。尽管 InstructGPT 仍然会犯一些简单的错误,但结果表明,利用人类反馈进行微调是使语言模型与人类意图一致的一个有希望的方向。

第一节 引言

引言部分更详细的介绍了研究背景及现状、提出的解决方法、取得的成果以及 InstructGPT 的局限性。

大型语言模型之所以表现出意料之外的行为,比如捏造事实、生成有偏见的或有害的文本,或者直接就不遵守用户指令的原因在于近期的大型语言模型使用的语言建模目标,即预测下一个词,与“安全而有益地遵循用户的指令”的目标是没有对齐的(misaligned)。因此通过一些手段来避免这些非预期的行为对于在数百个应用程序中部署和使用语言模型尤其重要。

本文希望语言模型是有帮助的(它们应该帮助用户解决他们的任务),诚实的(它们不应该捏造信息或误导用户),无害的(它们不应该对人或环境造成身体、心理或社会伤害)。

本文关注对齐语言模型的微调方法。具体而言,通过使用来自人类反馈的强化学习(非本文原创,之前已有 RLHF 相关的工作)对 GPT-3 进行微调,以遵循一大类编写好的指令(见图 2)。这种技术使用人类的偏好作为奖励信号来微调模型。作者团队首先根据候选人在筛选测试中的表现雇佣了一个由 40 名成员组成的团队,该雇佣团队主要负责数据标注(有关更多详细信息,请参见第 3.4 节和附录 B.1)。然后,作者团队收集提交给 OpenAI API 的提示(主要是英语)和一些标注人员编写的提示,基于这些提示收集了一个符合预期输出行为的人工演示数据集,并使用这个数据集来训练监督学习基线。接下来,作者团队收集了另外一个数据集,它是基线模型在一个更大的 API 提示集上的输出之间的人工标记的比较(模型有多个输出,标注人员标记哪个是他们偏好的)。然后,在这个数据集上训练一个奖励模型(RM),以预测标注人员会喜欢哪个模型输出。最后,使用这个 RM 作为奖励函数,并使用 PPO 算法微调监督学习基线,以最大化这个奖励。图 2 中说明了这个过程。该过程将 GPT-3 的行为与特定人群(主要是标注人员和研究人员)的既定偏好联系起来,而不是任何更广泛的“人类价值”概念;5.2 节将进一步讨论这一点。最终得到结果模型为 InstructGPT。

图 2 本文方法三个步骤的图示:(1)监督微调(SFT),(2)奖励模型(RM)训练,以及(3)通过近端策略优化(PPO)对该奖励模型进行强化学习。蓝色箭头表示该数据用于训练一个模型。在第二步中,方框A-D是模型中的样本,由标注人员进行排序。有关提出的方法的更多详细信息,请参见第3节。

在测试阶段,主要通过让标注人员在测试集上对模型输出的质量进行评级来评估模型的性能,该测试集由留出标注人员(他们没有在训练数据中)的提示组成。此外,还对一系列公共 NLP 数据集进行自动评估。模型包含三种大小(1.3B、6B 和 175B 参数),并且所有模型都使用 GPT-3 架构。主要发现如下(只列出结论):

  • 与 GPT-3 的输出相比,标注人员明显更喜欢 InstructGPT 的输出。
  • 与 GPT-3 相比,InstructGPT 模型在真实性方面有所提高。
  • 与 GPT-3 相比,InstructGPT 在毒性方面有小幅改善,但无偏倚。
  • 可以通过修改 RLHF 微调过程来最小化公共 NLP 数据集上的性能退化。
  • 模型能推广到不产生任何训练数据的“留出的”标注人员的偏好。
  • 公共的 NLP 数据集并不能很好的反映本文的语言模型是如何被使用的。
  • InstructGPT 模型显示了对 RLHF 微调分布之外的指令的有希望的推广。
  • InstructGPT 还是会犯简单的错误。

第二节 相关工作

本节不进行展开,主要介绍以下几个相关工作:

  • 基于人类反馈的对齐和学习的研究。
  • 训练语言模型遵循指令。
  • 评估语言模型的危害。
  • 修改语言模型的行为以减轻伤害。

第三节 方法和实验细节

3.1 方法总览

遵从之前的工作,本文从一个预训练的语言模型、一个期望模型产生一致输出的提示分布以及一组训练有素的标注人员(详见第 3.4 节)开始。然后,本文应用以下三个步骤(图 2)。

  • 步骤 1:收集演示数据,并训练一个受监督的策略。标注人员在输入的提示分布上提供期望行为的演示(参见第 3.2 节了解该分布的详细信息)。然后,在该数据集上使用监督学习微调预训练的 GPT-3 模型。
  • 步骤 2:收集对比数据,训练奖励模型。本文收集模型输出之间的对比数据集,对于给定的输入,标注者需要指明他们更喜欢哪个输出。然后,基于此训练一个奖励模型来预测人类偏好的输出。
  • 步骤 3:针对奖励模型使用 PPO 优化一个策略。本文使用 RM 的输出作为标量奖励。使用 PPO 算法微调监督模型,以优化这种奖励。

步骤 2 和 3 可以连续迭代;收集关于当前最佳策略的更多比较数据,用于训练新的 RM,然后训练新的策略。在实践中,大部分对比数据来自监督策略,有些来自 PPO 策略。

3.2 数据集

提示数据集主要由提交给 OpenAI API 的文本提示组成,特别是那些在 Playground 界面上(https://beta.openai.com/playground)使用早期版本的 InstructGPT 模型(通过对演示数据子集进行监督学习来训练)的提示。Playground 会告知客户,他们的数据可能会进一步地用于训练模型。通知会在用户使用 InstructGPT 模型的时候重复进行。在本文中,将不使用来自在生产中客户使用 API 的数据。作者团队通过检查具有相同长前缀的提示,对提示进行启发式重复数据删除,并将提示数量限制为每个用户 ID 200 个。作者团队还基于用户 ID 创建训练、验证和测试切分,于是验证集和测试集不包含来自训练集中的用户的数据。为了避免模型学习潜在的敏感客户详细信息,文中过滤了训练切分中的所有包含个人身份信息的提示。

为了训练第一个 InstructGPT 模型,作者要求标注人员自己编写提示。这是因为需要一个类似指令的初始提示源来引导这个过程,而这些类型的提示并不经常提交给 API 上的常规 GPT-3 模型。作者团队要求标注人员写出三种提示:

  • Plain:要求标注者提出一个任意任务,同时确保任务具有足够的多样性。
  • Few-shot:作者要求标注者提出一条指令,以及该指令的多个查询/响应对。
  • User-based:在 OpenAI API 的候补名单申请中陈述了许多用例。要求标注者提出与这些用例相对应的提示。

从这些提示中,生成了在模型微调过程中使用的三个不同的数据集:(1) SFT 数据集,用于训练 SFT 模型的标注人员演示,(2) RM 数据集,用于训练 RMs 的模型输出的标注人员排序,以及 (3) PPO 数据集,没有任何人类标签,用作 RLHF 微调的输入。SFT 数据集包含大约 13k 训练提示(来自 API 和标注人员编写),RM 数据集具有 33k 训练提示(来自 API 和标注人员编写),PPO 数据集具有 31k 训练提示(仅来自 API)。表 6 提供了有关数据集大小的更多详细信息。

为了给数据集的组成一个直观的感受,在表 1 中,作者展示了 API 提示(特别是 RM 数据集)以及标注人员标注的用例的类别的分布。大多数用例都是生成性的,而不是分类或 QA。本文还在表 2 中展示了一些说明性的提示(由研究人员编写,以模拟提交给 InstructGPT 模型的提示类型);提交给 InstructGPT 模型的更多提示在附录 A.2.1 中展示,提交给 GPT-3 模型的提示在附录 A.2.2 中展示。在附录 A 中提供了有关数据集的更多详细信息。

表 1 API 提示数据集的用例类别的分布。

表 2 来自 API 提示数据集的说明性提示。这些都是受真实用法启发的虚构示例—参见附录 A.2.1 中的更多示例。

表 6 数据集大小,即提示的数量。

3.3 任务

训练任务来自两个来源:(1) 由标注人员编写的提示数据集,以及 (2) 提交在 API 上的早期 InstructGPT 模型的提示数据集(见表 6)。这些提示非常多样,包括生成、问题回答、对话、摘要、摘录和其他自然语言任务(见表 1)。数据集的 96%以上是英语,但是在第 4.3 节中,本文还探索了模型对其他语言的指令做出响应和完成编码任务的能力。

对于每个自然语言提示,任务通常直接通过自然语言指令(例如“写一个关于聪明青蛙的故事”)来指定,但是也可以间接地通过少数几个例子(例如给出两个青蛙故事的例子,并提示模型生成一个新的例子)或者隐式延续(例如提供关于青蛙的故事的开始)。在每一种情况下,作者要求标注人员尽最大努力去推断该提示的用户的意图,并要求他们跳过任务非常不清楚的输入。此外,标注者还需要考虑到隐含的意图,如回应的真实性,以及潜在的有害输出,如有偏见或有毒的语言,由作者提供给他们的指示(见附录 B)和他们的最佳判断来指导。

3.4 人类数据收集

为了生成演示和比较数据,并进行评估,作者在 Upwork 上以及通过 ScaleAI 雇佣了一个由大约 40 名人员组成的团队。与收集关于概括任务的人类偏好数据的早期工作相比,本文的输入跨越更广泛的任务范围,有时可能包括有争议和敏感的话题。作者的目的是选择一组对不同人群的偏好敏感并且善于识别潜在有害输出的标注人员。因此,作者进行了筛选测试,旨在衡量标注人员在这些纬度上的表现。作者选择了在这个测试中表现良好的标注人员;有关作者的选择过程和标注人员统计数据的更多信息,请参见附录 B.1。

在训练和评估期间,本文的对齐标准可能会发生冲突:例如,当用户请求一个潜在有害的响应时。在训练期间,本文优先考虑对用户的帮助(如果不这样做就需要做出一些困难的设计决定,作者打算留给未来的工作;更多讨论见第 5.4 节)。然而,在最终评估中,作者团队要求标注人员优先考虑真实性和无害性(因为这是本文真正关心的)。

遵从之前的工作,作者团队在项目过程中与标注人员密切合作。作者团队通过一个入职流程来培训项目标注人员,为每项任务编写详细说明(参见附录 B.2),并在共享聊天室回答标注人员的问题。

为了观察模型如何推广到其他标注人员的偏好的,作者团队雇用了另外一组单独的标注人员,他们不产生任何训练数据。这些标注人员来自相同的供应商,但没有经过筛选测试。

尽管任务很复杂,本文发现标注者之间的一致率相当高:训练标注者之间的一致率为 72.6±1.5%,而相对于留出标注者之间的一致率为 77.3±1.3%。

3.5 模型

本文从 GPT-3 预训练语言模型开始。这些模型是在广泛分布的互联网数据上训练的,并且适用于广泛的下游任务,但是具有较差的特定行为。从这些模型开始,本文用三种不同的技术训练模型:

监督微调(SFT)。本文使用监督学习在标注人员演示上微调 GPT-3。使用余弦学习率衰减和 0.2 的 residual dropout 来训练 16 个轮次。本文根据验证集上的 RM 分数进行最终的 SFT 模型选择。与之前的工作类似,作者发现模型在 1 次迭代后对验证集损失过度拟合;然而,作者团队发现,尽管存在过度拟合,更多轮次的训练有助于 RM 分数和人类偏好评级的提升。

奖励建模(RM)。从 SFT 模型开始,去掉最后的非嵌入层,作者训练一个模型来接收提示和响应,并输出一个标量奖励。在本文中,仅使用 6B RMs,因为这节省了大量计算,并且作者发现 175B RM 训练可能不稳定,因此不太适合在 RL 期间用作值函数(有关更多详细信息,请参见附录 C)。

强化学习(RL)。再次遵循前人的工作,本文使用 PPO 微调了 SFT 模型。该环境是一个 bandit 环境,它呈现一个随机的客户提示,并期望一个对该提示的响应。给定提示和响应,该环境会产生由奖励模型确定的奖励,并结束这个事件。此外,本文在每个 token 处添加来自 SFT 模型的逐 token 的 KL 惩罚,以减轻奖励模型的过度优化。价值函数从 RM 初始化。这些模型即为“PPO”。

基线。本文将 PPO 模型的性能与 SFT 模型和 GPT-3 进行了比较。当它被提供一个少样本前缀来“提示”它进入指令跟随模式(GPT-3-提示),也会与 GPT-3 进行比较。此前缀被添加到用户指定的指令之前。

3.6 评估

为了评估模型的“对齐”(aligned)程度如何的,首先需要澄清对齐在这个上下文中意味着什么。对齐的定义在历史上一直是一个模糊和混乱的定义。本文出于语言任务的目的,如果语言模型是有帮助的,诚实的和无害的,就对齐了。

为了成为有帮助的,模型应该遵循指令,但也要从一些提示或其他可解释的模式来推断意图,比如“Q: {question}\nA:”。由于给定提示的意图可能不清楚或不明确,因此依赖于标注者的判断,本文的主要指标是标注者偏好评级。然而,由于作者团队的标注人员并不是生成提示的用户,所以在用户的实际意图和标注人员认为的意图之间可能存在差异。

在纯粹的生成模型中如何衡量诚实尚未确定;这需要将模型的实际输出与它对正确输出的“信念”进行比较,由于模型是一个大黑箱,因此无法推断它的信念。相反,本文使用两个指标来衡量真实性——模型关于世界的陈述是否真实:(1)评估模型在封闭领域任务(“幻觉”)上编造信息的倾向,以及(2)使用 TruthfulQA 数据集。不用说,这只是真实的一小部分。

与诚实类似,衡量语言模型的危害也存在诸多挑战。在大多数情况下,语言模型的危害取决于它们的输出在现实世界中如何使用。例如,生成毒性输出的模型在已部署的聊天机器人的环境中可能是有害的,但如果用于数据增强以训练更准确的毒性检测模型,甚至可能是有帮助的。在项目的早期,作者团队让标注人员评估一个输出是否“潜在有害”。然而,作者团队停止了这种做法,因为它需要太多关于输出最终将如何使用的猜测;特别是因为本文的数据也来自与 Playground API 接口交互的客户(而不是来自生产用例)。

因此,本文使用一套更具体的代理标准,旨在捕捉部署模型中可能最终有害的行为的不同方面:作者团队让标注人员评估输出是否在作为一名客户助理的上下文中不合适,诋毁受保护的类别,或者包含性或暴力内容。本文还在专门测量偏差和毒性的数据集上对模型进行了基准测试,如 RealToxicityPrompts 和 CrowS-Pairs。

总而言之,本文可以将定量评估分为两个独立的部分:

对 API 分布的评估。本文的主要衡量标准是对一组留出提示的人类偏好评级,这组提示与本文的训练分布的来源相同。当使用 API 中的提示进行评估时,本文只选择训练中未包含的客户的提示。然而,考虑到本文的训练提示是设计用于 InstructGPT 模型的,它们很可能不利于 GPT-3 基线。因此,本文还评估了 API 上提交给 GPT-3 模型的提示;这些提示通常不是“遵循指示”式的,而是专门为新 GPT 协议设计的。在这两种情况下,对于每个模型,本文计算其输出相对于基线策略的优先程度;本文选择 175B SFT 型号作为基准,因为它的性能接近同类产品的中间水平。此外,作者团队要求标注人员在 1-7 的 Likert 量表上判断每个响应的总体质量,并为每个模型输出收集一系列元数据(见表 3)。

对公共自然语言处理数据集的评估。本文评估了两种类型的公共数据集:一种是针对语言模型安全性的一个方面,特别是真实性、毒性和偏见,另一种是针对传统 NLP 任务(如问题回答、阅读理解和摘要)的零样本性能。本文还在 RealToxicityPrompts 数据集上进行人类毒性评估。本文将从所有基于采样的 NLP 任务的模型中发布样本。

第四节 结果

本节为第一节中的声明提供了实验证据,分为三个部分:API 提示分布的结果、公共 NLP 数据集的结果和定性结果。(下面只给出结论性语句的翻译,未展开)

4.1 API 分布的结果

与 GPT-3 的输出相比,标注人员明显更喜欢 InstructGPT 的输出。

本文的模型能推广到不产生任何训练数据的“留出”标注人员的偏好。

公共的 NLP 数据集不能反映本文的语言模型是如何被使用的。

4.2 公共 NLP 数据集上的结果

与 GPT-3 相比,InstructGPT 模型在真实性方面有所提高。

与 GPT-3 相比,InstructGPT 在毒性方面有小幅改善,但无偏倚。

可以通过修改 RLHF 微调过程来最小化公共 NLP 数据集上的性能退化。

4.3 定性结果

InstructGPT 模型显示了对 RLHF 微调分布之外的指令的有希望的推广。

InstructGPT 还是会犯简单的错误。

第五节 讨论

5.1 对对齐研究的影响

这项研究是本文作者团队更广泛的研究计划的一部分,该计划旨在使人工智能系统与人类意图保持一致。尽管这项工作专注于本文当前的语言模型系统,但是作者团队也在寻求适用于未来人工智能系统的通用和可扩展的方法。虽然这里使用的系统仍然相当有限,但它们是当今最大的语言模型之一,本文将它们应用于广泛的语言任务,包括分类、摘要、问答、创造性写作、对话等。

在这项工作中的对齐研究方法是迭代的:本文正在改善当前人工智能系统的对齐,而不是抽象地专注于对齐尚不存在的人工智能系统。这种方法的一个缺点是,本文没有直接面对只有在对齐超人类系统时才会出现的对齐问题。然而,本文的方法确实提供了一个清晰的经验反馈回路,什么可行,什么不可行。本文认为,这个反馈循环对于完善我们的对齐技术至关重要,它迫使我们跟上机器学习的进展。此外,本文在这里使用的对齐技术 RLHF 是对齐超人类系统的几个提议中的重要组成部分。例如,RLHF 是最近总结书籍内容的工作中的一种核心方法,这项任务展示了对齐超人类人工智能系统的一些困难,因为人类很难直接评估。

从这项工作中,本文可以为更普遍的对齐研究吸取经验教训:

  1. 相对于预训练,增加模型对齐的成本是适中的。收集数据和用于训练运行(包括实验运行)的计算成本只是训练 GPT-3 的一小部分:训练 175B SFT 模型需要 4.9 千万亿次浮点运算/秒-天,训练 175B PPO-ptx 模型需要 60 千万亿次浮点运算/秒-天,而 GPT-3 需要 3,640 千万亿次浮点运算/秒-天。与此同时,本文的结果表明,RLHF 在使语言模型对用户更有帮助方面非常有效,超过了 100 倍的模型大小增长。这表明,目前增加对现有语言模型对齐的投资比训练更大的模型更具成本效益——至少对于本文客户的自然语言任务分配来说是如此。

  2. 本文一些证据表明,InstructGPT 将“遵循指令”推广到未受监督的环境中,例如在非英语语言任务和与代码相关的任务中。这是一个重要的属性,因为让人类监督模型执行的每一项任务是极其昂贵的。需要更多的研究来研究这种一般化随着能力的增加如何扩展;有关该方向的最新研究,请参见 Christiano 等人(2021 年)。

  3. 本文能够减轻微调带来的大部分性能下降。如果不是这样,这些性能下降将构成对齐税——对齐模型的额外成本。任何高税率的技术可能都不会被采用。为了避免激励未来高能力的人工智能系统保持与人类意图不一致,需要具有低对齐税的对齐技术。为此,本文的结果对作为低对齐税技术的 RLHF 来说是个好消息。

  4. 本文已经从现实世界的研究中验证了对齐技术。对齐研究在历史上一直相当抽象,侧重于理论结果,小的合成域,或者在公共 NLP 数据集上训练 ML 模型。本文的工作为人工智能系统中的对齐研究提供了基础,这些人工智能系统正在与客户一起用于现实世界的生产中。这使得关于技术的有效性和局限性的重要反馈循环成为可能。

5.2 本文的模型在与谁对齐

当将语言模型与人类意图对齐时,它们的最终行为是底层模型(及其训练数据)、微调数据和使用的对齐方法的函数。在本节中,本文将具体描述一些影响微调数据的因素,以最终确定本文要调整的内容和对象。然后,在第 5.3 节更详细地讨论本文工作的局限性之前,考虑需要改进的地方。

文献通常使用“人类偏好”或“人类价值”这样的术语来构建对齐。在这项工作中,作者团队对齐了一组标注人员的偏好,这些偏好受到给予他们的指示、他们收到这些指示的背景(作为有偿工作)以及他们从谁那里收到这些指示等因素的影响。一些重要的警告适用于:

第一,本文正在对齐标注人员提供的演示和偏好,这些标注人员直接产生用来微调模型的数据。本文在附录 B 中描述了标注人员招聘流程和人口统计数据;一般来说,他们大多是居住在美国或东南亚的讲英语的人,通过 Upwork 或 ScaleAI 受雇。他们在许多例子上意见不一致;作者团队发现标注人员之间的同意程度为 73%。

第二,本文正在对齐作者团队的偏好,因为研究人员设计了这项研究(因此通过代理更广泛的研究组织 OpenAI):作者团队编写标签说明,标注人员在编写演示和选择他们首选的输出时可以使用这些说明作为指南,作者团队在一个共享的聊天室中回答他们关于边缘案例的问题。需要对不同指令集和接口设计对从标注人员收集的数据的确切影响及其对模型行为的最终影响进行更多的研究。

第三,本文的训练数据是由 OpenAI 客户向 OpenAI API Playground 上的模型发送的提示决定的,因此本文隐式地与客户认为有价值的内容保持一致,在某些情况下,与他们的终端用户认为当前使用 API 有价值的内容保持一致。客户及其终端用户可能不同意,或者客户可能没有为终端用户的利益进行优化;例如,客户可能想要一个模型,最大化用户在其平台上花费的时间,这不一定是终端用户想要的。实际上,标注者并不知道给定的提示或完成会出现在什么样的环境中。

第四,OpenAI 的客户并不代表语言模型的所有潜在或当前用户——更不用说受语言模型使用影响的所有个人和团体了。在这个项目的大部分时间里,OpenAI API 的用户都是从候选名单中挑选出来的。这份候选名单的最初种子是 OpenAI 的员工,使最终群体偏向 OpenAI 自己的网络。

退一步说,在设计一个公平、透明并具备适当问责机制的协调进程方面存在许多困难。本文的目标是证明这种对齐技术可以针对特定的应用与特定的人类参考组进行对齐。本文并不是说研究人员、雇佣的标注人员或 API 客户是偏好的正确来源。需要考虑许多利益相关者——培训模型的组织、使用模型开发产品的客户、这些产品的最终用户以及可能直接或间接受到影响的更广泛的人群。这不仅仅是使协调进程更具参与性的问题;人们不可能训练出一个能同时符合每个人偏好的系统,或者每个人都赞同折衷方案的系统。

可行道路可能是训练模型,让这些模型可以根据特定群体的偏好进行调整,或者可以很容易地进行微调或提示来代表不同的群体。不同的模型可以被支持不同价值观的团体部署和使用。然而,这些模式最终可能仍然会影响更广泛的社会,并且需要做出许多艰难的决定,这些决定涉及以谁的偏好为条件,以及如何确保所有群体都能得到代表并可以选择退出可能有害的流程。

5.3 局限性

方法论。InstructGPT 模型的行为部分取决于从标注人员那里获得的人类反馈。一些贴标任务依赖于价值判断,而价值判断可能会受到标注人员的身份、信仰、文化背景和个人经历的影响。作者团队雇用了大约 40 名标注人员,根据他们在筛选测试中的表现,判断他们识别和回应敏感提示的能力,以及他们与研究人员在详细说明的标签任务中的一致率(见附录 B)。作者团队让标注团队保持较小的规模,因为这有助于与一小组全职工作的标注人员进行高效沟通。然而,这个群体显然不能代表将使用部署的模型并受其影响的所有人群。举个简单的例子,本文的标注人员主要讲英语,本文的数据几乎全部由英语指令组成。

还有许多方法可以改进本文的数据收集设置。例如,出于成本原因,大多数比较仅由一个标注人员标记。多次标记示例有助于识别标注人员不同意的领域,因此单个模型不可能适用于所有领域。在不一致的情况下,对准平均标注人员偏好可能是不可取的。例如,当生成对某个少数群体产生不相称影响的文本时,本文可能希望属于该群体的标注者的偏好被赋予更大的权重。

模型。本文的模型既不是完全对齐的也不是绝对安全的;它们仍会产生有毒或有偏见的输出,编造事实,在没有明确提示的情况下产生性和暴力内容。它们也可能无法在某些输入上产生合理的输出;图 9 展示了一些例子。

图 9 与没有附加前缀的GPT-3 175B相比,175B PPO-ptx模型(InstructGPT 175B)中的简单错误。提示是精心挑选的,用来说明某些行为,但是输出不是精心挑选的。(1) InstructGPT可能会被假设错误前提的指令所混淆,并简单地附和它。(2) InstructGPT可以过度回避,而不是直接回答简单的问题。请注意,这些样本没有完全反映GPT-3回答问题的能力,因为它没有被提示进入“问题回答”模式。

也许本文的模型最大的限制是,在大多数情况下,它们遵循用户的指令,即使这可能导致现实世界中的伤害。例如,当给出一个提示指示模型产生最大化的偏见时,InstructGPT 产生比同等大小的 GPT-3 模型更多的有害输出。本文将在以下部分讨论潜在的缓解措施。

5.4 开放式问题

这项工作是使用对齐技术微调语言模型以遵循广泛指令的第一步。有许多开放的问题需要探索,以进一步将语言模型行为与人们实际希望它们做的事情结合起来。

还有许多方法可以尝试来进一步降低模型生成有毒、有偏见或有害输出的倾向。例如,可以使用对抗设置,其中标注人员找到模型的最坏行为,然后将其标注并添加到数据集中。还可以将本文的方法与过滤预训练数据的方式相结合,或者用于训练初始预训练模型,或者用于本文的预训练混合方法的数据。类似地,可以将本文的方法与提高模型真实性的方法相结合,如 WebGPT。

在这项工作中,如果用户请求一个潜在有害或不诚实的响应,本文允许模型生成这些输出。尽管有用户的指示,训练本文的模型是无害的是重要的,但也是困难的,因为一个输出是否有害取决于它被部署的环境;例如,使用语言模型生成有毒输出作为数据扩充管道的一部分可能是有益的。本文的技术也可以应用于让模型拒绝某些用户指令,作者团队计划在这项研究的后续迭代中探索这一点。

让模型做人们想做的事与可操纵性和可控性直接相关。一条有希望的未来道路是将 RLHF 与其他可操控性方法结合起来,例如使用控制代码,或在推理时使用较小的模型修改采样过程。

虽然本文主要关注 RLHF,但也有许多其他算法可用于在本文的演示和比较数据上训练策略,以获得更好的结果。例如,可以探索专家迭代,或使用比较数据子集的更简单的行为克隆方法。人们还可以尝试约束优化方法,该方法根据产生少量有害行为的条件,最大化奖励模型的得分。

比较也不一定是提供对齐信号的最有效的方式。例如,我们可以让标注者编辑模型响应以使它们更好,或者用自然语言生成对模型响应的评论。还有一个巨大的选择空间,用于为标注人员设计界面,以向语言模型提供反馈;这是一个有趣的人机交互问题。

本文通过将预训练数据纳入 RLHF 微调来减轻对齐税的提议,并没有完全减轻性能退化,并且可能使某些不良行为更有可能出现在某些任务中(如果这些行为出现在预训练数据中)。这是一个值得进一步研究的有趣领域。另一个可能改进本文方法的修改是过滤预训练混合数据中的有毒成分,或者用合成指令增加这些数据。

正如 Gabriel (2020)中详细讨论的那样,与指令、意图、显示的偏好、理想偏好、兴趣和价值观保持一致之间存在微妙的差异。Gabriel (2020)提倡一种基于原则的调整方法:换句话说,就是确定”尽管人们的道德信仰差异很大,但公平的对齐原则得到了反思性的认可。”在论文中,为了简单起见,本文与推断的用户意图一致,但是在这个领域还需要更多的研究。事实上,最大的公开问题之一是如何设计一个透明的对齐流程,有意义地代表受技术影响的人们,并以在许多群体中达成广泛共识的方式综合人们的价值观。5.2 节讨论了一些相关的考虑因素。

5.5 更广泛的影响

这项工作的动机是希望通过训练大型语言模型做一组人们给定的并希望它们做的事情,来增加它们的积极影响。默认情况下,语言模型优化下一个单词预测的目标只是人们希望这些模型做什么的代理。结果表明,本文的技术有希望使语言模型更有帮助、更真实和无害。从长远来看,对齐失败可能会导致更严重的后果,特别是如果这些模型部署在安全至上的环境中。本文预计,随着模型规模的继续增大,必须对大型模型更加小心谨慎,以确保它们与人类意图保持一致。

然而,使语言模型更好地遵循用户意图也使它们更容易被滥用。因为使用这些模型生成令人信服的错误信息、仇恨或辱骂性内容可能更容易。

对齐技术不是解决与大型语言模型相关的安全问题的灵丹妙药;相反,它们应该被用作更广泛的安全生态系统中的一个工具。除了有意的误用之外,在许多领域中,大型语言模型的部署需要非常小心,或者根本不需要。包括高风险领域,如医疗诊断、基于受保护特征的人员分类、确定信贷、就业或住房资格、生成政治广告以及执法。如果这些模型是开源的,在没有适当监管的情况下,限制这些和其他领域中的有害应用就变得具有挑战性。另一方面,如果大型语言模型的访问被限制在少数拥有训练它们所需资源的组织中,这将大多数人排除在最前沿的 ML 技术之外。另一种选择是组织拥有模型部署的端到端基础设施,并通过 API 对其进行访问。这允许安全协议的实现,如用例限制(只允许模型用于某些应用程序)、对误用的监控和撤销对那些误用系统的人的访问,以及防止产生大规模错误信息的速率限制。然而,这可能会以降低透明度和增加权力集中为代价,因为它要求 API 提供者决定在这些问题上的界限。

最后,如第 5.2 节所述,这些模型与谁对齐的问题极其重要,并将显著影响这些模型的最终影响是积极的还是消极的。