来源:AICG工具箱 责编:网络 时间:2025-07-28 09:08:46
7月22日消息,阿里云今天更新了旗舰版Qwen3模型,推出Qwen3-235B-A22B-FP8非思考模式(Non-thinking)的更新版本,命名为Qwen3-235B-A22B-Instruct-2507-FP8。
阿里云表示,在经过与社区沟通和深思熟虑后,决定停止使用混合思考模式,转为分别训练Instruct和Thinking模型,以获得最佳质量。
据介绍,新的Qwen3模型通用能力显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。
FP8版本的Qwen3-235B-A22B-Instruct-2507具有以下功能特点:
类型:因果语言模型/自回归语言模型
训练阶段:预训练与后训练
参数量:总共235B,激活22B
参数量(非嵌入):234B
层数:94
注意头数(GQA):Q为64,KV为4
专家数:128
激活专家数:8
上下文长度:原生支持262,144。
阿里云表示,本次更新的Qwen3模型,还增强了以下关键性能:
在多语言的长尾知识覆盖方面,模型取得显著进步。
在主观及开放性任务中,模型显著增强了对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本。
长文本提升到256K,上下文理解能力进一步增强。
目前,Qwen3新模型已在魔搭社区和HuggingFace上开源更新,附官方地址:
官网地址:https://chat.qwen.ai/
HuggingFace:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
魔塔社区:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
欠债一个亿的大厂,万众瞩目的Stable Diffusion 3终于正式开源了!目前开源的是20亿参数的版本,据悉之后还会开源40亿和80亿的“大杯”与“超大杯”。
在2025年的今天,全国高考报名人数已经突破了1335万大关,创下了历史新高。面对如此庞大的竞争群体,以及不断深化的高考改革趋势,考生和家长们正面临着前所未有的挑战。特别是随着全国已有29个省份完成了
就在刚刚,马斯克又整大活了!他带着脑机接口Neuralink团队,开了1小时发布会,整个过程亮点满满,全程高能。首先,Neuralink宣布,目前全球已经有七人植入了设备。通过「心灵感应」产品,他们重获跟物理世
近日,GoogleDeepMind正式发布首个可完全在机器人本地部署的视觉-语言-动作模型(Visual-Language-Action,VLA)——GeminiRoboticsOn-Device。这也意味着,具身智能(EmbodiedAI)正在从依赖云端算力,迈入
创新不设限!2024新“智”慧全国AI数字创意大赛吸引百余组选手参赛
抖音开启AI搜索功能灰度测试丨OpenAI CEO奥特曼:2024年无法实现AGI丨夸克APP上线“健康大模型”
Win11迎接史诗级更新,为你的电脑植入AI大脑,微软终于硬了!
体验完ChatGPT最新联网插件Web browsing,我们发现了以下好处与坏处
AI绘画ComfyUI进阶教程丨插件IPAdapter的详细使用教程,风格模仿,换脸全靠它
如何利用Whee辅助制作APP动态启动页丨附保姆级提示词教程
怎么制作AI套壳软件_100学AI_AI套壳软件怎么调用接口
如何定制ChatGPT小工具_有哪些实用的ChatGPT工具推荐
通义听悟有什么能力_通义听悟有什么功能
关键词后缀参数有什么_有哪些关键词后缀