阿里云通义开源首个推理步骤评估标准

推荐
快报
广场
科股宝VIP
视频
直播

阿里云通义开源首个推理步骤评估标准

2025.01.16 14:31

钛媒体App 1月16日消息，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型；在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时，通义团队还开源首个步骤级的评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。

US阿里巴巴

HK阿里巴巴-W

AGI

本文内容仅供参考，不构成投资建议，请谨慎对待。

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

投资日历