直追GPT-4，李开复团队开源大模型Yi-34B最新测评成绩出炉：超越GPT-3.5、LLaMA 2等主流大模型

来源：AICG工具箱责编：网络时间：2025-05-05 20:55:09

11月6日，零一万物创始人及CEO李开复带队创办的AI 2.0公司零一万物，正式发布首款开源预训练大模型 Yi-34B。此次零一万物开源发布的Yi系列模型，包含34B和6B两个版本。其中开源的Yi-34B模型将发布全球最长、可支持200K 超长上下文窗口（context window）版本，可以处理约40万汉字超长文本输入。

12月8日发布的最新测评榜单中，李开复零一万物Yi-34B-Chat最新成绩公布，仅次于GPT-4——在Alpaca经认证的模型类别中，以94.08%的胜率，超越了LLaMA2 Chat 70B、Claude 2、ChatGPT！

不仅如此，在加州大学伯克利分校主导的LMSYS ORG排行榜中，Yi-34B-Chat也以1102的Elo评分，晋升最新开源SOTA开源模型之列，性能表现追平GPT-3.5。

在五花八门的大模型评测中，伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的“聊天机器人竞技场” 特殊测评模式，让众多大语言模型在评测平台随机进行一对一 battle，通过众筹真实用户来进行线上实时盲测和匿名投票，11月份经25000的真实用户投票总数计算了20个大模型的总得分。

Elo评分越高，说明模型在真实用户体验上的表现越出色，可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。

△LMSYS ORG榜单（发布于2023年12月8日）

中文能力方面，Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜，从基础能力、专业能力和中文特性能力三个不同的维度，评估模型的能力。

根据11月底发布的《SuperCLUE中文大模型基准评测报告2023》，11月下旬首度发布的 Yi-34B Chat，迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限，在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上，Yi-34B-Chat 取得31.82%的胜率，仅次于GPT4-Turbo。

△中文SuperCLUE排行榜（发布于2023年11月28日）

Yi-34B-Chat对话场景实测

Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示：

例如“喂”给Yi-34B-Chat如下问题：Transformer 模型结构能不能走向 AGI ？

不难看出，Yi-34B-Chat的回答可以说是有理有据。

再来：给我生成一个小红书文案，给大家安利一只豆沙色的口红。

回答可以说是非常符合现在小红书主流的带货风格了。

中文理解方面，我们再出一道题：

小王给领导送了一份礼物后。

领导说：“小王，你这是什么意思？”

小王：“一点心意，意思意思。”

领导：“你这就不够意思了。”

小王：“小意思，小意思。”

领导：“小王，你这人真有意思。”

小王：“也没什么别的意思。”

领导：“那我多不好意思。

”小王：“是我不好意思。”

这个意思到底是什么意思？

可以看到，即便是在非常“绕”的中文理解方面，Yi-34B-Chat也是精准的拿捏住了。

据零一万物介绍，除了 Yi 系列强基座的贡献以外，Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程，不仅强化了模型在理解和适应人类需求方面的能力，还使得模型与人类价值观对齐，包括帮助性(Helpful)，可靠性(Honest)，无害性(Harmless)等。

在强基座设定下，该团队采用了一种轻量化指令微调方案，该方案涵盖了单项能力提升和多项能力融合两个阶段。

其中，单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验，针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面，一方面，团队在强基座模型上，实现仅需要少量数据(几条到几百条)，就能激发模型特定单项能力;另一方面，数据质量比数量重要，少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据，减少了模型“幻觉”。

在指令多样性与难度方面，团队通过在各能力项下构建任务体系，实现了训练数据中的指令均衡分布，大幅提升了模型泛化性。通过复合指令构造和指令难度进化，不仅提升了模型效果，也显著降低了对数据量的需求。

在风格一致性方面，团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度，因此统一了回复风格，比如重点设计了CoT的回复风格，实现在轻量SFT情况下，避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段，团队采用网格搜索的方法来决定数据配比和超参数的设置，通过基准测试和自建评测集的结果来指导搜索过程，成功实现模型的多能力融合。

不仅如此，Yi模型开源首月，数据也很亮眼。

在Hugging Face社区下载量为16.8万，魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

由于性能表现强劲，多家知名公司和机构推出了基于Yi模型基座的微调模型，比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型，南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等，均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中，也选择了Yi-6B作为范例项目。

知名技术写作者苏洋表示，在他观察的近期Hugging Face榜单中，前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型，原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个，“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”