来源:AICG工具箱 责编:网络 时间:2025-02-28 14:31:58
AI奇点网5月31日报道丨熟悉大模型的朋友都曾经听过这么一个网站——LMSYS Org推出的大模型竞技场Chatbot Arena,该网站目前已发展为海外最具公信力的大模型榜单之一,但遗憾的是,该竞赛榜单的中文水平含金量程度相对不足。
近日,上海人工智能实验室联合阿里魔搭社区(ModelScope)推出中国大语言模型评测竞技场Compass Arena,首度集齐国内开源大模型届豪强。
Compass Arena首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面、Minimax、深度求索、书生·浦语等等,共计20多款国产大模型出战,角逐中国大模型“最强王者”。
据介绍,相比考题固定的传统测评,由上海人工智能实验室打造的Compass Arena大模型竞技场采用盲测、开放的测评模式,可以更全面地检验模型实力。
Compass Arena设置了随机、匿名对战,大模型选手们成为“蒙面唱将”,模型信息隐去后,由系统随机匹配进行PK,用户可以天马行空自由出题,并作为评委主观评判和投票。如果大模型不小心“自报家门”,则对话被过滤,不计入成绩。通过成千上万轮PK挑战和用户投票,系统将对大模型进行自动排名。
AI奇点网了解到,Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设,前者负责组织评测,后者负责开源模型引入及社区打造。据上海人工智能实验室OpenCompass团队介绍,Compass Arena力求体现社区用户的真实反馈,评测机制借鉴Chatbot Arena,采用Elo评分系统,即国际象棋等对弈活动评估的权威标准。
在这种模式下,大模型竞技类似“在游戏中打排位”,胜率成为评估模型水平的关键指标,同时随着排位变高,系统也会自动匹配高段位选手进行对战。
与海外的Chatbot Arena大模型竞技场相比,国产的Compass Arena更聚焦中文大模型,主流国产大模型全覆盖,同时评测用户大多使用中文,可以充分评估国产大模型的性能。
目前,Compass Arena已汇聚国内超过20款的商业及社区开源大模型,其中不乏来自BAT的大厂模型。包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国内头部人工智能开发商的旗舰款大模型,并引入了海外的Llama3、Mixtral AI等海外标杆模型进行参照。
未来,更多模型及厂商还在不断加入中。
入选Compass Arena大模型竞技场的首批国产大模型名单如下:
Abab6.5-Chat (MiniMax)Baichuan 4 (百川智能)C4AI Command R+ (Cohere)DBRX-Instruct (DataBricks)Deepseek-LLM-67B-Chat(深度求索)Deepseek-MoE-16B-Chat(深度求索)Doubao-Pro-4K (字节豆包)ERNIE-4.0-8K (百度文心)GLM4 (智谱AI)Hunyuan-Pro (腾讯混元)InternLM2系列(上海AILab书生·浦语)Llama3系列(Meta)Mixtral 8x22B Instruct (Mistral)MoonShot-V1-32K (月之暗面)Qwen1.5系列 (阿里通义千问)Qwen-Max (阿里通义千问)Spark3.5-Max (讯飞星火)Yi-34B-Chat (零一万物)Yi-Large (零一万物)百度网盘AI修图版是一款专业高效的智能修图软件。百度网盘AI修图最新版内置了强大的图片处理工具,包括一键瘦身、智能磨皮、色彩调整等功能,能够提高用户的修图效率。
这是AIGC应用系列教程,之前给大家详细介绍了AIGC做海报、微信红包、动态引导页,这一篇给大家介绍AIGC辅助古诗词视频设计的全流程!直接上干货,手把手保姆级教程保证轻松完成。
【AI奇点网2024年7月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
「Thrive AI Health」创立的最终目标,是利用即将推出的健康数据平台,拓展与斯坦福医学院等机构的合作,培训一名“AI健康顾问”。
AIGC落地应用教程丨关于如何利用AIGC工具进行古诗词视频制作
OpenAI发布Mac版ChatGPT应用,与macOS深度兼容,官网可下载
小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
Stable Diffusion四大基础模型测评丨附整合包下载地址
深度实测谷歌Bard聊天机器人最新免费生图功能:PK对比DALL·E 3与Midjourney,顶流大对决!
科大讯飞最新AI PPT产品“讯飞智文”全面测评:借助AIGC的能力,分分钟交付一份精美的年终PPT
实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」:会读图、写代码,秒懂网络梗图,中文顶流性能视觉大模型
全球AI绘画工具测评_AI绘画横评_国内绘画工具哪个比较厉害
打工人必备ai软件_ai软件推荐_有什么好用的ai软件
美图WHEE怎么样_美图WHEE怎么进行AI绘画_美图WHEE测评如何_如何利用美图WHEE进行绘画