长白山网站学做管理平台Wordpress调用百度云-兰州市网站建设公司-Seo优化

长白山网站学做管理平台,Wordpress调用百度云,自动搜索关键词软件,杭州网站制作服务语言模型#xff08;LLM#xff09;#xff0c;如 GPT-3#xff0c;无疑开启了自然语言处理的新纪元。它们强大的零样本和少样本学习能力#xff0c;让我们看到了通用人工智能的一丝曙光。然而#xff0c;任何与 GPT-3 有过深入“交流”的开发者或研究员都会发现一个问题…语言模型LLM如 GPT-3无疑开启了自然语言处理的新纪元。它们强大的零样本和少样本学习能力让我们看到了通用人工智能的一丝曙光。然而任何与 GPT-3 有过深入“交流”的开发者或研究员都会发现一个问题它虽然博学但并不总是“乐于助人”或“听话”。大型语言模型的输出可能是不真实的、有毒的或者根本对用户没有帮助。问题的根源在于LLM 的训练目标——在庞大的语料库上“预测下一个词”——与我们希望它拥有的能力——“有用、诚实、无害地遵循用户指令”——之间存在着天然的偏差。这种现象我们称之为“对齐Alignment”问题。为了解决这一核心矛盾OpenAI 提出了 InstructGPT 模型。其背后的技术是“基于人类反馈的强化学习”Reinforcement Learning from Human Feedback, RLHF旨在将语言模型的能力与人类的意图和价值观对齐。这项工作取得了惊人的成果在人类偏好评估中一个仅有13亿参数的 InstructGPT 模型其输出质量竟然超越了1750亿参数的 GPT-3。本文将深入解读这篇开创性的论文为您详细拆解其背后的技术原理、训练流程和核心洞见。同时非常推荐李沐老师关于这篇论文的精读。第一部分核心方法论 - RLHF 三部曲InstructGPT 的训练流程并非单一模型的一蹴而就而是一个包含三个关键步骤、环环相扣的系统工程。我们可以通过论文中的核心图示来宏观理解这个过程image第一步监督微调 (SFT - Supervised Fine-Tuning)目标对预训练的 LLM 进行“启蒙”让它初步具备理解并遵循指令格式的能力模仿高质量的回答范例。实现方式 OpenAI 雇佣了约40名标注员构建了一个包含约1.3万个样本的高质量“指令-示范答案”数据集。这些指令来源广泛一部分由标注员亲自撰写另一部分则来自向早期 InstructGPT 模型提交的真实用户请求。具体实现这一步是标准的监督学习。模型以“指令”为输入以“示范答案”为目标输出通过最小化交叉熵损失Cross-Entropy Loss来更新 GPT-3 模型的参数。简单来说就是让模型学习“在看到这样的问题时应该生成那样的答案”。SFT 赋予了模型遵循指令的基本形态使其能够生成符合格式要求的、有意义的回答为后续的优化步骤打下坚实的基础。SFT的局限性为什么需要第二步和第三步看到这里很多人会问既然已经有了高质量的人工示范数据为什么不一直做 SFT而是要引入更复杂的奖励模型和强化学习呢原因主要有三点标注成本高昂撰写一个高质量、详细的示范答案SFT数据需要耗费标注员大量的时间和精力成本极高。相比之下让人类去“裁判”——从模型生成的多个答案中选出最好的一个RM数据——要容易得多成本也更低。因此收集排序数据的扩展性远超SFT数据。探索空间有限 SFT 本质上是模仿学习模型的输出被限制在人类标注员给出的范例分布内。它很难生成超越标注员知识范围或更具创造性的优质答案。对齐目标模糊人类的偏好是一个复杂、模糊且难以用单一最优答案来定义的概念。SFT 试图拟合一个“正确答案”而 RLHF 的目标是拟合一个“偏好模型”。后者更能捕捉到人类对于“好”答案的直觉和权衡例如在“有趣但略有不准”和“准确但枯燥”之间的选择。因此为了以更低的成本、更广的探索空间来更好地对齐复杂的人类偏好引入第二步和第三步是必然的选择。第二步训练奖励模型 (RM - Reward Model)目标训练一个“人类偏好裁判”即奖励模型使其能够模拟人类的价值观为任何一个模型输出进行质量打分从而量化人类偏好。实现方式数据收集针对同一个指令使用第一步训练好的 SFT 模型生成4到9个不同的回答。人类排序标注员根据回答的质量对这些生成的回答进行从最好到最差的排序。这个过程收集了约3.3万个训练样本。原理与模型更新这个排序数据例如ABCD被转换成多组成对的比较数据如等。然后我们训练一个奖励模型RM其输入是“指令一个回答”输出是一个代表质量的标量分数。RM 的参数通过最小化以下的成对排序损失函数Pairwise Ranking Loss来更新公式直观解读和分别是 RM 对“更好”的回答 () 和“更差”的回答 () 的打分。我们的核心目标是让的分数远大于即最大化二者之差。是 Sigmoid 函数它将这个分数差映射到 (0, 1) 区间可以看作是“模型认为比更好”的概率。通过对这个概率取对数并加上负号即标准的交叉熵损失形式当模型预测正确即分数差很大概率接近1时损失接近0当模型预测错误即分数差很小或为负概率接近0.5或更低时损失会变得很大。通过最小化这个损失RM 被迫学习到一种打分策略使其打分结果与人类标注员的排序尽可能一致。最终我们得到了一个能够代替人类进行初步打分的“代理裁判”。第三步基于 PPO 的强化学习 (Reinforcement Learning with PPO)目标将 SFT 模型视为一个需要优化的“策略Policy”在 RM 这个“代理裁判”的指导下通过强化学习进行探索和优化使其能自主生成更符合人类偏好的内容。强化学习与大模型的结合智能体 (Agent) 正在被优化的 LLM由 SFT 模型初始化。环境 (Environment) 一个随机返回用户指令的流程。状态 (State) 当前环境给出的指令Prompt。行动 (Action) LLM 根据指令生成的回答Response。奖励 (Reward) 由第二步训练好的 RM 对 LLM 生成的“指令-回答”对的打分。原理与模型更新此阶段是整个流程的核心。策略模型Policy的参数被更新而 RM 和 SFT 模型的参数是冻结的。最终 PPO-ptx 版本的优化目标函数如下公式直观解读这个复杂的公式可以看作是智能体在优化时需要权衡的三个目标奖励项由 RM 提供是优化的主要驱动力。最大化这一项意味着让模型智能体学会生成能获得 RM 高分即更符合人类偏好的回答。这是智能体行动的根本目标。KL 惩罚项这一项计算了当前策略模型与初始 SFT 模型的输出分布之间的 KL 散度。它像一根“缰绳”防止模型为了片面追求高奖励而“走火入魔”生成一些在 RM 看来分数很高但语言上不通顺或怪异的文本。它确保了模型的探索是在一个合理、安全的范围内进行的。预训练分布混合项这是 PPO-ptx 模型特有的“回炉重造”项。在更新时额外引入一部分原始预训练数据即 GPT-3 的训练数据的梯度。其目的是缓解“对齐税Alignment Tax”——即防止模型在学习遵循指令这个“专业技能”后忘记了从海量数据中学到的广泛“通识知识”从而导致在一些传统的 NLP 公开数据集上的性能下降。第二部分关键实验结果与分析核心发现对齐效果与模型大小的关系image人类偏好评估实验结果清晰地表明标注员在绝大多数情况下都更喜欢 InstructGPT 的输出。最引人注目的结论是1.3B 的 InstructGPT 模型生成的回答其受青睐程度超过了 175B 的原始 GPT-3 模型。这证明了通过 RLHF 进行对齐是一种比单纯增大模型规模更有效、更具性价比的提升模型“可用性”的途径。真实性与安全性相比于 GPT-3InstructGPT 在真实性方面表现更好它在封闭领域任务如摘要中捏造事实即“幻觉”的频率大约是 GPT-3 的一半。同时在被提示需要生成尊重他人的内容时InstructGPT 产生有毒输出的比例也比 GPT-3 低约25%。模型的泛化性与局限性泛化能力 InstructGPT 展现了优秀的泛化能力。即使在训练数据中占比极低的非英语指令和代码相关指令上它也能更好地遵循用户的意图这表明模型不仅仅是记住了训练任务而是在一定程度上学会了“如何遵循指令”这个元技能。“对齐税”问题论文敏锐地发现经过 RLHF 对齐后的模型在一些传统的 NLP 基准测试如 DROP, SQUADv2上出现了性能下降的现象这就是所谓的“对齐税”。通过在 PPO 训练中混合预训练梯度的 PPO-ptx 策略这一问题得到了极大缓解且没有牺牲人类的偏好分数。缺点与不足尽管 InstructGPT 进步巨大但它远非完美。它仍然会犯一些简单的错误比如当指令中包含一个错误的假设时模型有时会顺着这个错误的假设进行回答。在 Winogender 和 CrowSPairs 等衡量偏见的数据集上InstructGPT 相较于 GPT-3 并未表现出显著改善。当用户明确指示模型生成有害内容时它仍然会遵循指令。第三部分总结与思考InstructGPT 的工作是大型语言模型发展史上的一个里程碑。它清晰地证明了技术价值 RLHF 是解决大模型与人类意图对齐问题的有效且高性价比的路径。它将模糊的人类偏好通过“SFT - RM - PPO”这套流程成功转化为了可优化的数学目标。核心洞察 “对齐”本身就是一个需要精心设计和权衡的过程。模型需要在“乐于助人Helpful”、“诚实Honest”和“无害Harmless”这三个维度之间找到平衡。例如过于追求“无害”可能会让模型拒绝回答很多正常问题变得不再“乐于助人”。开放性问题这篇论文也为我们带来了更深层次的思考——我们究竟在将模型与“谁”的价值观对齐目前这个标准是由少数的标注员和 OpenAI 的研究人员定义的。如何设计一个更具包容性、代表性、公平且透明的对齐流程是整个 AI 领域未来需要面对和解决的关键挑战。总而言之InstructGPT 不仅为我们提供了一个更“听话”的模型更重要的是它为如何让越来越强大的 AI 系统与人类社会更好地协同提供了一套切实可行的工程范式和深刻的研究启示。

长白山网站学做管理平台Wordpress调用百度云

大良营销网站建设教程哪家网站游戏做的比较好

企业网站建设费未付款怎样挂账对中国建设银行网站的评价

绥化市住房和城乡建设网网站做饰品网站

怎麽做网站上海崇明林业建设有限公司网站

贵阳网站建设平台助企建站

济阳县做网站公司南京app建设

长白山网站学做管理平台Wordpress调用百度云

大良营销网站建设教程哪家网站游戏做的比较好

企业网站建设费未付款怎样挂账对中国建设银行网站的评价

绥化市住房和城乡建设网网站做饰品网站

怎麽做网站上海崇明林业建设有限公司 网站

贵阳网站建设平台助企建站

济阳县做网站公司南京app建设

怎麽做网站上海崇明林业建设有限公司网站