清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型-钛媒体官方网站

文 | 学术头条

长文本（Long-context）大模型性能的优劣，在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。

然而，现有的合成有监督微调（SFT）数据由于缺少人类核验，往往会影响长文本大模型的性能，导致 SFT 模型存在固有的缺陷，如幻觉和无法充分利用上下文信息等。

原则上，通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷，使其更好地与人类偏好对齐，但在长上下文场景下如何获得可靠的奖励信号，仍是一个未被探索的问题。

如今，来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——

他们提出了一个名为 LongReward 的新方法，旨在利用现有的大语言模型（LLM）从四个人类价值维度（帮助性、逻辑性、忠实性和完整性）为长文本模型的回复提供奖励，并结合强化学习进一步提升模型的性能，从而有效地改进 SFT 模型。

论文链接：https://arxiv.org/abs/2410.21252
GitHub 地址：https://github.com/THUDM/LongReward
Hugging Face：https://huggingface.co/datasets/THUDM/LongReward-10k

研究表明，LongReward 不仅可以显著提高模型的长文本性能，还能够增强它们遵循简短指令的能力。另外，带有 LongReward 的长文本 DPO 和传统的短文本 DPO 可以同时使用，而不会影响任何一方的性能。

研究方法

LongReward 通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。

具体而言，LongReward 利用一个现有的大模型（M_judge，该研究中使用的 GLM-4）从四个人类重视的价值维度——有用性、逻辑性、忠实性和完整性——为长文本模型的回复提供奖励。这些维度覆盖了模型输出的各个关键方面，确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10，最终奖励是这些分数的平均值。

图｜LongReward 图示

1.帮助性（Helpfulness）

评估模型回复是否与问题相关，是否提供了有用的信息，是否满足了用户的需求和要求。
由于帮助性主要依赖于问题和回复内容，基本与上下文无关，研究团队让 M_judge 通过少样本学习和思维链 (CoT) 对问题和回答进行评分。

2.逻辑性（Logicality）

评估模型回复的不同部分是否逻辑一致，观点是否一致，推理和计算是否正确，是否存在自相矛盾。
与帮助性类似，研究团队让 M_judge 通过少样本学习和思维链（CoT）对回答进行评分，找出可能的逻辑错误。

3.忠实性（Faithfulness）

评估模型回答中事实信息的比例是否与上下文一致。
要求 M_judge 首先将回答分解为事实性陈述，再判断每个陈述是否由最相关的上下文支持。
为了适应长上下文场景，将回答分解为句子级别的事实性陈述，并忽略不含事实信息的功能性句子。

4.完整性（Completeness）

评估模型回答是否涵盖了上下文中与问题相关的所有关键点，是否提供了足够的信息和细节来满足用户的需求。
首先将上下文分解为粗粒度的块，并让 M_judge 从每个块中提取与问题相关的信息。
然后将所有提取的相关信息拼接起来，再利用 M_judge 评估模型回复的完整性，即是否涵盖了所有重要信息。

在评分机制基础上，LongReward 与离线强化学习（RL）算法 DPO 结合，形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出，使其更符合偏好要求。

具体来说，通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分，研究团队可以自动构建 DPO 所需的偏好数据集。

实验结果

他们的实验表明，LongReward 不仅显著提高了模型的长文本性能，还增强了它们遵循简短指令的能力。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示，使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%，超过了所有基线方法。