牧仁

从打分器到思考者:RM

「知其然,亦知其所以然。」这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职责;但现有模型往往只给出一个分数,却难...