此篇博文主要结合原论文和沐神的Anthropic LLM 论文精读【论文精读·51】视频进行翻译与解读。
题目
论文名为《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》,该论文发布于 2022-04-12,论文的作者由 31 位来自 Anthropic 的研究人员组成。题目直白的翻译是“通过基于人类反馈的强化学习来训练一个有益无害的助手”。
摘要
摘要开门见山,直接介绍本文采用偏好建模和基于人类反馈的强化学习(RLHF)的来微调语言模型,以充当有益和无害的助手。本文发现,这种对齐训练提高了几乎所有 NLP 评估的性能,并且与 Python 编码和摘要等专业技能的训练完全兼容。接着介绍本文的主要贡献:
- 本文探索了一种迭代的在线训练模式,其中偏好模型和 RL 策略以每周一次的频率,并且采用最新的人类反馈数据更新,有效地改进了数据集和模型。
- 本文研究了 RLHF 训练的鲁棒性,并确定了 RL 奖励和策略与其初始化之间的 KL 散度的平方根之间的大致线性关系。
- 除了主要结果本文还对校准、竞争目标和 Out-of-distribution 检测的使用进行了外围分析,将本文模型与人类作者进行了比较,并提供了来自本文模型的使用最近相关工作中出现的提示的样本。
第一节 引言
本文希望开发技术来训练有帮助、诚实和无害的人工智能代理。在本文中,展示了通过收集人类偏好数据并应用偏好建模(preference modeling, PMing)以及使用基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF)技术可以训练一个相对有帮助且无害的(helpful and harmless, HH)自然语言助手。图 2 总结了整个训练过程。
本文的目标不是定义或规定“有益的”和“无害的”意味着什么,而是评估本文训练技术的有效性,所以在大多数情况下,作者团队只是让他们的众包工作人员按照他们认为合适的方式来解释这些概念。本文区别对待有益和无害,为它们收集不同的人类偏好数据集。对于有益性,作者团队要求众包工作人员征求模型来协助任何纯粹基于文本的任务,例如回答问题、编写或编辑文档,或者讨论计划和决策。对于无害性,作者团队要求众包工作人员对语言模型进行对抗性探索或“红队”,以激发有害的响应:要么帮助他们实现有害的目标,如计划抢劫银行,要么让人工智能使用有毒的语言。在他们与人工智能助手交谈的每个阶段,众包工作人员都有两种可能的响应。那些参与有益性任务的人被指示选择更有益和诚实(即更好)的回答。参与红队任务的人被指示选择更有害(即更差)的响应。这些对话和人类表达的偏好构成了本文的数据集。
有益和无害往往是对立的。过分关注避免伤害会导致“安全”的响应,而这些响应实际上并没有解决人类的需求。过度关注有益性会导致帮助人类造成伤害或产生有毒内容的响应。本文通过展示评估这些品质中的一个的偏好模型在另一个方面表现非常差(比偶然差得多)来定量地证明这种矛盾。幸运的是,本文发现在两种数据集上训练的偏好模型仍然可以学习正确的教训,并在适当的时候表现出有益的行为,同时鼓励礼貌地拒绝有害的请求。有了偏好模型,作者团队就可以通过强化学习训练有用和无害的助手,使用 PM 分数作为奖励。本文评估 PM 性能和经过 RLHF 训练的模型的更相关的性能特征。从图 1 中可以看出,纯有帮助的经过 RLHF 训练的模型更容易红队,而有帮助+无害的模型既有很大的帮助,又有小得多的危害。
关于对齐训练经常提出的一个问题是,它是否会损害人工智能的能力。本文发现,当 RLHF 应用于大型语言模型时,答案似乎是几乎绝对否定的。本文的 RLHF 训练的模型往往在几乎所有评估上都比它们的原始、生成型对应模型表现得更好,如图 3 所示。本文还认为,一个人可以混合专业技能与对齐相关的训练,而不会损害对齐或性能。在实践中,对齐的模型可能比它们的原始对应物更加用户友好和可部署,这表明没有理由部署没有针对对齐进行微调的模型。
1.1 贡献
对话偏好数据集
作者团队主要在他们的界面(图 6)中使用各种 52B 语言模型(详见第 2 节)收集单独的有益和无害(即红队)数据集。众包工作人员与模型进行开放式对话,或寻求帮助,或提供指导,或试图让模型发出有害的响应,他们被要求在每个对话步骤中分别选择更有帮助的响应或更有害的响应。
作者团队收集了三份数据,一份来自初始模型,一份来自针对早期偏好模型的拒绝采样,一份来自通过人类反馈的“在线”强化学习训练的模型收集的最终数据集,作者团队大约每周改进一次。参见第 2.3 节。
与人类价值观保持一致有很多好处,而且基本上不会影响性能
较小的模型经历了严重的“对齐税”——在 RLHF 训练后,它们在各种评估中的表现下降。然而,本文发现了大模型的各种对齐奖励,即 13B 和 52B RLHF 训练的模型在零样本 NLP 评估中表现更好,在小样本评估中也是如此。
HH 的自然语言 RLHF 训练可以应用于首先在代码上被微调的模型,并且提高了它们在评估上的编程能力(大概是通过改进通用指令跟随)。本文还发现,将 HH 的偏好模型训练与摘要的专业技能混合不会导致 HH 或摘要的性能下降。因此,没有理由不将校准训练与更具体、更有价值的技能结合起来。
在有益和无害之间存在矛盾,这可以在偏好建模和 RLHF 训练的策略级别上测量(图 1)。然而,随着模型大小的增加,PMs 同时在两种分布上表现得更好,并且对于有用和无害的训练数据的相对比例变得更加稳健。
本文还表明,可以使用 OOD 检测技术来拒绝大多数奇怪和有害的请求(图 22),很少或没有有害的例子(图 23)。
扩展、RLHF 鲁棒性和迭代“在线”训练
本文研究了作为模型和数据集大小函数的 PM 准确性的比例关系,并发现了大致的对数线性趋势(图 7),尽管遇到了一些特殊情况(图 31 和 32)。
本文对 RLHF 的鲁棒性进行了实验(见图 4)。首先,将数据集分成两半,并在每一半上训练单独的偏好模型。然后,针对一个 PM 训练 RL 模型,同时使用另一个 PM 进行评估。本文的结论是,较大的 PMs 比较小的 PMs 更鲁棒,正如预期的那样,在 RLHF 训练中过拟合增加。
本文发现对于大部分 RLHF 训练来说,KL 散度的平方根和奖励近似线性相关(见图 4 和 13),
本文研究迭代在线训练,每周更新偏好模型和 RLHF 策略,然后重新部署这些新的 RLHF 模型以与众包工作人员互动。这极大地改进了众包工作人员评估的的模型(图 1),并且极大地改进了 PMs 判断的数据集(图 15),在质量方面填充了上尾部。为了消除混杂因素并支持本文的结论,本文进行了额外的控制实验(图 16),保持数据集大小和其他超参数不变
1.2 评估和指标摘要
- NLP 和代码评估:
- 静态对齐评估:
- 人工评估:
- 样本:
1.3 相关工作
本小节主要介绍了 LaMDA 和 InstructGPT。两者都使用人类数据来训练大型语言模型,使其更加通用或一致。两者都使用比本文的 52B 模型稍大的语言模型。
本文的工作不同于 InstructGPT 和 LaMDA,因为本文探索“在线”训练,即更新与众包工作人员互动的模型,以便获得质量越来越高的数据,并填充数据分布的尾部。另一个不同之处是本文对专业技能的探索,如总结和编码,本文用它来支持这样的论点,即可以在不限制能力的情况下实现对齐。本文也明确地研究了有益和无害之间的矛盾关系,就本文所知,这种矛盾关系暂未得到解决。最后,本文将更详细地探讨伸缩性和健壮性,包括在 RL 训练期间。也就是说,本文的程序(图 2)实际上比其他工作中使用的程序要简单一些。本文认为唯一必要的步骤是人类反馈数据收集、偏好建模和 RLHF 训练。
第二节 数据收集
第三节 为有益性和无害性进行偏好建模
第四节 基于人类反馈的强化学习
第五节 竞争目标、专业技能和域外检测
第六节 定性示例和比较
对通用对话代理进行定量评估是一个挑战。本文的研究过程本质上依赖于定性评估,以获得模型优势和劣势的感觉,即使最终目标是产生某种定量度量。因此,在这一节中,本文将提供一些最终在线 HH 模型的对话示例。
对样本进行定性评估的一个明显问题是,很难知道它们在多大程度上是经过精选的。为了缓解这个问题,作者团队为每个提示生成 17 个样本,用 HH 在线偏好模型对它们进行排序,然后显示样本的中间值。本文根据与附录 C 中其他人的可比工作相关联的提示提供样本,包括 Instruct-GPT,LaMDA,以及 PALMS 中出现的敏感问题。本文鼓励读者浏览这些样本,以便对模型行为有一个公正的认识。
6.1 与人类作家的比较
作为对本文模型的额外测试,作者团队从人类作家那里收集了高质量的 HHH 对话。这些作者是基于之前成功的写作工作和积极的评价而被雇佣的。作者团队给了他们一些例子,然后要求他们写出相当理想的人类/助手交互。
6.2 敏感问题的回避与参与
本节列举 PALMS 敏感问题的几个例子。本文选择它们是为了说明这个模型有时会避开非常敏感的话题,但通常会提供合理的回答。(具体示例请参考原文)
6.3 对话示例
大部分示例只涉及一个提示和响应,本文展示一些两轮对话。(具体示例请参考原文)
第七节 讨论
本文已经证明,可以使用基于人类反馈的强化学习来训练语言模型,使其成为有益无害的助手。尽管作者团队期待其他可以做得更好的技术的出现,本文的 RLHF 训练确切地提高了模型诚实度。与近期其他大型语言模型对齐相关的工作类似,相较于简单地放大模型,RLHF 大大提高了有用性和无害性。
本文的对齐干预实际上增强了大型模型的能力,并且可以很容易地与专业技能(如编码或摘要)的训练相结合,而不会降低对齐或性能。参数少于 10B 的模型表现不同,需要为其功能支付“对齐税”。这提供了一个示例,即接近最先进水平的模型可能需要从对齐研究中获得正确教训。
本文发现的总体情况似乎并不令人惊讶,即大型模型可以以相互兼容的方式学习各种各样的技能,包括对齐。大型模型以对齐的方式表现只是另一种能力,许多工作表明,较大的模型更有能力,以更高的样本效率进行微调,并且不会出现明显遗忘的问题。虽然本文没有直接证明,但本文也期望 RLHF 对齐训练可以与其他目标的训练混合或先于其他目标的训练;这在未来可能是相关的,以避免中间的、未对齐的人工智能系统的产生。
本文确切地发现了有益性和无害性之间明显的矛盾,当只评估有益性时,完全为有益性训练的模型比为 HH 训练的模型更受欢迎。本文认为这部分是由于数据收集过程中的微妙之处,因为很少收集数据来教导模型如何积极处理有害的请求(例如,如何成为一种“人质谈判者”),而只是如何避免它们。本文还发现,至少在偏好模型的层面上,有益无害的矛盾感随着模型变得更大、更有能力而减弱。尽管如此,本文确实认为这种矛盾是真实的,这种谨慎可能会在边际上削减模型性能。
大型生成模型被称为“基础模型”。这些模型是非常有趣的研究对象,但是如果没有进一步的微调,它们可能会表现出有害的行为。本文的工作表明,对齐训练可以被纳入基础模型,而不会损害它们的实用性和多功能性,因此它可能很快成为它们定义的一部分。
7.1 局限性
虽然作者团队相信本文的结果为现有语言模型的对齐提供了一个有希望的方向,但是关于这个主题的工作仍然处于早期阶段,并且具有许多限制。正如[Thoppilan 等人,2022]的作者所强调的,作者团队将本文的对齐工作视为一个正在进行的项目;工作[askel 等人,2021]是第零步,本文是第一步。
作者团队已经实际地将一个对齐的助手定义为一个有帮助、诚实和无害的人工智能。本文乐观地认为,在目前的能力水平下,在这里讨论的技术提供了一个合理的方法来实现有益性和无害性。然而,虽然本文的技术提高了模型的诚实度,但作者团队相信本文只是触及了问题的表面,其他技术可能会更有效地产生诚实的人工智能模型。
此处,本文主要关注模型的平均行为。然而,即使作者团队确信本文的模型是预期中的 HHH,一个明确的下一步将是试图研究和消除不良行为(尤其是危害性),即使是在最坏的情况下。作者团队还没有解决这个问题的鲁棒性,但希望在未来研究它。随着人工智能系统的发展和在部署过程中遇到分布偏移,这只会变得更加紧迫。
人工智能对齐可能很难评估,也不明确。因此,虽然本文的大型 RLHF 训练模型在几乎所有能力评估上都比普通 LMs 表现更好,但人们可能希望真正有用的模型的零样本性能等于未对准模型的小样本性能。这里的逻辑是,如果一个模型真的可以“有帮助地遵循指令”,那么一个提示或解释应该足以弥合从零样本到小样本的差距。本文离达到这种性能水平还差得很远!即使在诚实评估 TruthfulQA 上,本文也仅缩小了不到一半的差距(图 5)。本文还简要调查了 RLHF 微调代码模型在暴露于包括错误代码的提示时是否有任何比较优势,但没有发现任何好处。人们会希望一个完全对齐的模型会尽最大努力写出正确的代码,即使给出一个错误的提示。
作者团队还怀有一种普遍的担忧,即也许本文的技术只呈现了“表面上”一致的模型,它们仍然隐藏着有害的偏见或其他可能在更微妙的环境中出现的倾向。本文发现,RLHF 模型对所有种族和宗教群体都有更积极的情绪,这似乎很有希望,但并不一定表明偏见已经减少。关于性别,本文发现 RLHF 模型的偏差与潜在语言模型的偏差有很强的相关性。也就是说,需要进一步的工作来了解这是否是 RLHF 作为一种技术的局限性,或者是本文特定的 HH 数据集的局限性。无论如何,本文可能需要建立更微妙和全面的评估,包括多轮对话,因为这是人类可能会使用模型的领域,也是更难以根据偏见和公平等微妙目标来衡量表现的地方。
在更实际的层面上,本文没有太多将 RL 技术应用于大型生成式模型的经验。有经验的人工智能从业者知道,有大量的调整和技巧需要实验来识别,这可以极大地提高训练的稳定性和性能。本文遇到了一些 RL 的稳定性问题,虽然本文进行了一些初步的超参数扫描,但本文希望随着更多的经验和研究,以后可以做得更好。本文也没有探索在线训练的变化,例如字面上更新单个 PM 或 RLHF 模型;相反,本文在每次迭代中从头开始重新训练这些模型。另一个探索方向是使用 PM 分数的非平凡函数作为 RL 奖励,扭曲分数分布以更加关注劝阻不良行为而不是奖励良好行为。总之,有许多未来的方向可以探索,以改善 RLHF。
最后一个担忧是,随着人工智能模型变得越来越强大,本文已经采用的技术是否会继续适用。本文非常重视这些问题。在作者团队看来,目前的工作朝着最初的目标取得了一些进展,作者团队的目标是建立一套简单通用的技术,可以在目前的能力水平上调整人工智能模型。假设这个目标可以实现,下一步将是在研究人员之间建立共识,并更深入地理解对齐,包括技术如何与人工智能能力相适应。作者团队希望能创造出一种不断发展的实用主义的艺术状态,来训练完全有益的、诚实的和无害的人工智能。
另一个重要的步骤将是使用这个基线作为探索其他技术的起点,这些技术可以更好地处理更高级的用例以及更推测性的故障模式。然后,新的想法和技术可以与现有的方法进行比较,如果它们在安全性和稳健性方面产生进一步的改进,则可以纳入标准实践。本文的观点是,最相关的问题和最有创造性和最有效的对齐技术将通过对具体人工智能系统的研究来识别和开发。正如在 6.1 节中看到的,已经遇到了指出人类反馈局限性的例子,因此需要开始开发其他方法。
7.2 将对齐数据当作公共产品
在这项工作中,作者团队让大众的常识来定义什么是有益和无害的行为。这足以让本文探索“技术对齐”,即某些技术是否可以用来训练人工智能模型更有帮助和无害的问题。但是本文回避了解决潜在的问题,即从部署的人工智能模型中应该期待什么样的行为。
这个问题不应该只是来源于研究者。也就是说,如果没有对与人工智能训练最相关的“对齐数据”的格式和类型的明确规定,除了研究人员之外,任何人都很难收集到训练安全有益的人工智能系统所需的信息。然而,最近有几个项目(包括作者团队的项目)已经使用了类似的方法[Stiennon 等人,2020,欧阳等人,2022,Nakano 等人,2021]来教授 AI 建模复杂的人类偏好,作者团队还发现[askel 等人,2021]基于排名比较的偏好建模比许多其他技术更好。
一种可行的方法是由一个具有伦理、法律和文化专业知识的独立组织创建一个非常高质量的数据集,表达人类对人工智能行为的偏好(通过比较)。这样一个组织还可以使用一种新的治理结构,以便更大范围的社会利益相关者可以考虑它所做的关于如何创建和管理对齐数据的决策——这与今天相反,在今天,私营公司以不透明的方式做出这些决策,使用将权力授予财务利益相关方的治理结构。以这种方式创建的数据集可能用于人工智能模型的训练和评估,甚至可以开始建立行为标准。由于人工智能语言模型的快速改进,本文预计,如果这些数据集能够以人类水平的复杂程度编码偏好,那么它们将是最有价值的。无论如何,这只是扩大数据集创建参与的一种推测性可能性。
本文的研究受益于公开可用的研究数据集和将人工智能与人类价值观相结合的评估[Stiennon 等人,2020 年,Hendrycks 等人,2021 年 a],作者团队计划发布他们的偏好建模数据,供其他人在他们的研究中使用。不幸的是,正如最近的一些工作所证明的,这似乎不是对齐研究人员的标准做法。虽然本文同意 LLM 本身可以被用于伤害,但似乎没有这样的论点可以用于对齐数据。
对于对齐和安全性研究来说,实现协作和再现性是极其重要的。随着人工智能系统变得越来越强大,部署越来越广泛,错误和误解的成本可能会大幅增加。本文认为,令人信服地解决高级人工智能系统潜在安全故障的唯一方法是建立一个由具有深厚专业知识和经验评估系统能力的研究人员组成的深思熟虑的社区。如果关于高级系统对齐的知识仍然在许多独立的组织中孤立存在,这几乎是不可能的。共享数据似乎是实现结果共享和验证的最简单和最常识性的方式。
保密的一个表面原因是,组织可能使用来自用户的数据来开发对齐数据集,然后以侵犯用户隐私为由证明不共享数据集是合理的。这是一个具有挑战性的问题,要求组织考虑如何协调商业优先事项和为社区创建“安全公共空间”的需求。如果对齐成为商业护城河的概念,这可能会降低人工智能生态系统的整体安全水平。因此,本文认为,为对齐而开发的数据集应该与商业数据分开,并应该公开共享,以推进对安全和有益的人工智能的研究。
7.3 更广泛的影响
作者团队希望本文的工作提供了令人信服的证据,证明人工智能系统可以同时变得更安全和更有用,而且没有性能成本。如上所述,对于哪些价值观定义了可接受和不可接受的人工智能行为,本文在很大程度上保持不可知论。因此,本文希望技术对齐的快速进展和特定技术的整合将推动公开可用的对齐数据、指南和基准的开发。
人工智能技术具有双重用途,也就是说它们可以产生有益作用,也可以有害的作用。本文已经发现偏好建模和 RLHF 的有效性(在本文的研究和其他研究中),并且相信这些技术可能被用于审查、欺诈和错误信息,这是非常合理的担忧。直接的商业用例似乎也令人担忧,特别是如果用户参与和说服等目标的优化混合在一起。在最朴素的层面上,如果你可以优化为“无害”的,那么你可以“翻转符号”并生成有害的系统。本文还发现,经过专门训练的有益系统更容易被用于有害目的,这表明随着系统变得越来越强大,直接抑制其潜在危害将变得越来越重要。
也许这项工作最广泛的影响,以及可控的、类似人类的语言生成的一般发展和传播,将是文化的。在图 1 中,本文使用了一个 Elo 量表,本质上是国际象棋评分系统,来比较和评估自然语言助手,本文甚至包括了与人类作家的比较。这种比较有淡化语言重要性的风险,语言当然不只是游戏,而是文化和社会的核心媒介。虽然寻求整合能力越来越强的人工智能系统看起来是一个非常好的行动,但对如何以及何时部署这些系统提出了更具挑战性的问题——文化从根本上说是一项人类事业,但大规模的生成模型有可能以不可预测和不透明的方式放大和缩小人类文化的不同部分,这可能会产生广泛的下游影响。