R1培训不再取决于正确或不正确的结果!来自香港
作者: 365bet体育投注 点击次数: 发布时间: 2025-06-08 11:55

DEPSEEK-R1流行后,R1等结果奖励的训练范式在各种领域引起了推理浪潮。基于规则的结果的奖励是严格酌情实施的。但这真的足够了吗?在推理任务中,如果模型以“正确且错误的结果”奖励,则该模型可能已经学会了“使用快捷方式信任问题”。该模型并未完全建立模型的“正确思想策略”。然后,由于“猜测盲目”的回报,他们可以反复加强错误的策略。为了解决这个问题,上海人工智能研究所的香港和中国团队发布了Sophiavl-R1多模式推理模型,该模型导致了R1强化增强学习培训培训框架的重要发展。纸质链接:https://arxiv.org/abs/2505.17018项目地址:https://github.com/kxfan2002/sophiavl-r1inntent内容测试。现在,研究团队已经开设了所有模型,数据和代码源。分数对于思考过程也是必需的。对于出色的Sophiavl-R1模型来说,这是一个重要的提前点。这是引入“思想奖励”机制。除了分析答案是否正确之外,我们还开始评估模型推断的整个过程是否是理性,一致和可靠的。研究人员仔细创建了一个用于思维过程分数的数据集,其中包括各种思维模式和错误,训练了“思想得分模型”,以基于多个角度生成整个思维过程得分。例如,如果对推论过程有正确的答案,但是中间逻辑显然会跳跃或没有意义,则此过程只能获得0.3的思想得分。另一个推理过程将选择b,但是该过程是细致的,派生是明确的,思想得分可能达到0.9。什么时候E老师以相同的方式编辑时间,不仅看到结果,而且提供了“过程得分”。该运动不仅提高了模型推断的质量,而且更重要的是,教授“方法”模型,而不是“访客方法”。但是,Sophiavl-R1中的“奖励改革”并不意味着将“流程”纳入奖励机制并不意味着直接增加的工作。模型生成的思维过程是自由文本,因此很容易“认真对待它”。例如,您可以编写长长的“逻辑”段落,这些段落似乎是合理的,但是您实际上是在重复托蒂亚斯或隐藏正在考虑的泻湖。这种奖励欺骗现象是加强学习中非常普遍的问题。为了解决这个问题,Sophiavl-R1介绍了信任组培训算法的标题,其主要概念如下:确定基于GRPO组中信息考虑奖励的可靠性。蒂S方法将正确的答案与相同的问题与与错误答案相对应的思想奖励进行了比较。如果发现通过不正确的响应获得的思想奖励很高,则奖励分数将自动下降,这将提高培训的稳定性和一般可靠性。下图显示了一个示例。实验结果是许多常用的评估点(MMMU,MME,Mathvista等)之一,Sophiavl-R1-7bit具有非常强大的推理和泛化功能。与基于组的方法SFT+GRPO和PRM相比,执行直接参考点,超过了Llava-Anevision-72b模型,比Llava-Anevision-72b模型的体积大10倍。这显示了一个非常核心。通过正确的培训范式来教授推理能力。 Sophiavl-R1的成功是一个很好的注释。消融实验还表明,所有Sophiavl-R1零件都是有效的。同样时间,从训练曲线来看,可以有效地考虑奖励信号和信任弹簧算法的重要性,因为Sophiavl-R1不仅接受了更好的培训,而且训练得更快。显示性别。以下是Sophiavl-R1推理的一些示例,我们可以看到该模型可以生成高质量的推理过程。请参阅文档的原始文档以获取信息信息。