冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

来源：AICG工具箱责编：网络时间：2025-08-21 09:01:03

用过DeepSeek-R1等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

这两天，微软研究员DimitrisPapailiopoulos在