来源:AICG工具箱 责编:网络 时间:2025-05-05 20:55:09
11月6日,零一万物创始人及CEO李开复带队创办的AI 2.0公司零一万物,正式发布首款开源预训练大模型 Yi-34B。此次零一万物开源发布的Yi系列模型,包含34B和6B两个版本。其中开源的Yi-34B模型将发布全球最长、可支持200K 超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。
12月8日发布的最新测评榜单中,李开复零一万物Yi-34B-Chat最新成绩公布,仅次于GPT-4——在Alpaca经认证的模型类别中,以94.08%的胜率,超越了LLaMA2 Chat 70B、Claude 2、ChatGPT!
不仅如此,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。
在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的“聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。
Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。
△LMSYS ORG榜单(发布于2023年12月8日)
中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。
根据11月底发布的《SuperCLUE中文大模型基准评测报告2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。
△中文SuperCLUE排行榜(发布于2023年11月28日)
Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:
例如“喂”给Yi-34B-Chat如下问题:Transformer 模型结构能不能走向 AGI ?
不难看出,Yi-34B-Chat的回答可以说是有理有据。
再来:给我生成一个小红书文案,给大家安利一只豆沙色的口红。
回答可以说是非常符合现在小红书主流的带货风格了。
中文理解方面,我们再出一道题:
小王给领导送了一份礼物后。
领导说:“小王,你这是什么意思?”
小王:“一点心意,意思意思。”
领导:“你这就不够意思了。”
小王:“小意思,小意思。”
领导:“小王,你这人真有意思。”
小王:“也没什么别的意思。”
领导:“那我多不好意思。
”小王:“是我不好意思。”
这个意思到底是什么意思?
可以看到,即便是在非常“绕”的中文理解方面,Yi-34B-Chat也是精准的拿捏住了。
据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。
在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。
其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。
在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。
在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。
在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。
在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。
不仅如此,Yi模型开源首月,数据也很亮眼。
在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。
由于性能表现强劲,多家知名公司和机构推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等,均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。
知名技术写作者苏洋表示,在他观察的近期Hugging Face榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”
Yi-34B开源发布后,开发者Eric Hartford就发现了模型存在的一个小问题。
他在邮件中写道:
感谢你们提供了一个优秀的模型。Yi模型使用了与LLaMA模型完全相同的架构,只是将两个张量改了名字。由于围绕LLaMA架构有很多投资和工具,保持张量名称的一致性是有价值的。”Eric建议,在Yi被广泛传播前,及时恢复张量名称。
商汤科技最新升级的AI文生图领域的预训练模型——秒画Artist v0 3 5版本,三个月后迭代。审美水平和专业度上达到顶尖水平,福利值(免费)直接拉满
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像
免费版的 ChatGPT 足以完成大多数任务,但如果想要更快的响应、更多的细节和访问最新的功能,应该考虑获取 ChatGPT Plus。现在Plus版本已经可以连接互联网,获取最新的消息,以及各种各样的小插件,非常好用!
ChatGPT Plus会员怎么付费_如何升级ChatGPT Plus会员
商汤全新AI绘图大模型“秒画Artist”v0.3.5版本上手测评:作画水平比肩Midjourney!划重点——免费
stable diffusion controlnet_stable diffusion模型哪个好
2024诺贝尔化学奖授予谷歌DeepMind CEO丨联发科发布天玑9400旗舰AI芯片丨Sora负责人被谷歌挖墙脚
ChatGPT计划在年底将订阅费涨到22美元/月丨Llama 3.2发布:手机端侧可运行丨百度世界大会将于11月12日举行
字节跳动发布两款豆包系列视频模型丨ChatGPT「高级语音模式」功能全量上线丨「Apple智能」对存储空间要求进一步提高
快手发布文生视频大模型「可灵」丨广东高考首次启用AI智能巡考丨支付宝推出AI毛发自测工具
字节跳动试水AI硬件研发:重整人马聚焦教育赛道与智能可穿戴终端,两条产品线同时推进
10年缘分说散就散:Ilya Sutskever官宣从OpenAI离职,麾下的“超级对齐团队”负责人也一并离职
4000亿开源大模型「天工3.0」正式上线丨国内首个音乐模型「天工SkyMusic」上线丨波士顿动力发布电动人形机器人