来源:AICG工具箱 责编:网络 时间:2025-07-14 12:12:00
不怕推理模型简单问题过度思考了,能动态调整CoT的新推理范式SCoT来了!
SCoT,即自结构化推理链(Self-structured Chain of Thought )。
它通过将推理过程分解为最小语义原子步骤,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。
另外,为了激发推理能力,研究人员还提出了AtomThink,这是一个包含数据构造、训练、推理和评估的全过程框架,用来提升多模态大模型在复杂推理任务上的表现。
实验中,SCoT使模型能根据问题复杂度自动调整推理链长度,复杂问题的推理步骤更长。
在多个数据集上,AtomThink框架显著提升了基线模型的准确率,数据利用效率和推理效率也表现出显著优势。
并且,原子能力评估揭示了多模态模型在不同推理能力上的分布特征,为理解多模态推理模式提供了新视角。
这项研究由来自中山大学、香港科技大学、上海交通大学、香港大学、华为诺亚方舟实验室的研究人员联合提出,以下是更多细节。
当前,结构化和非结构化CoT面临一定的挑战。
现有方法或依赖于固定模板的结构化推理,或采用自由形式的非结构化推理,存在如推理行为单一、需要人工设计模版、计算效率低下或在简单问题上过度思考的问题。
因此,团队提出两个假设:
不同类型的问题可能需要不同的推理能力;推理的复杂性应与问题的难度相匹配。为了为具有不同复杂性的问题动态生成适当的推理结构,团队引入了自结构化思维链(SCoT)和一个全过程训推框架AtomThink。
其中自结构化思维链(SCoT),即作者提出将推理过程分解为最小语义单元——原子步骤,并通过多轮预测方法动态生成推理链。
模型每次仅预测一个原子步骤,并将其附加到历史推理步骤中,作为下一轮推理的输入。
为应对模型推理异常(如重复、停滞等),引入基于规则的过滤机制和温度累积策略,以增强推理的多样性和流畅性。
AtomThink框架则包含四个关键模块:
数据引擎:通过动态提示策略和短推理增强方法生成高质量多步推理路径,构建包含20k多模态数学问题和124k原子步骤标注的AMATH数据集。原子步骤微调:采用步骤级掩码训练,迫使模型学习独立推理步骤。策略引导的多轮推理:在过程监督模型的基础上,结合路径搜索和步骤搜索策略(如多数投票、最佳候选选择、贪婪算法和束搜索)扩展推理空间。原子能力评估:基于推理行为聚类和步骤利用率计算,评估模型在不同推理能力上的表现。研究团队选取不同规模的LLaVA1.5-7B和Llama3.2-Vision-11B作为基线模型,使用AMATH-SFT数据集进行微调,并在MathVista、MathVerse、MathVision和Humanity’s Last Exam基准数据集上进行评估。
实验设置包括直接推理、普通推理链(CoT)、自结构化推理链(SCoT)以及结合过程奖励模型(PRM)的SCoT推理。
在MathVista、MathVerse和MathVision数据集上,AtomThink框架显著提升了基线模型Llama3.2-Vision-11B的准确率,分别提高10.9%、10.2%和7.2%。
与现有结构化CoT方法相比,AtomThink在准确率、数据利用效率和推理效率上均表现出显著优势,在准确率超越LLaVA-CoT的条件下数据利用效率提升5倍,推理效率提升85.3%。
另外,与结构化方法相比,SCoT能够动态生成更多样化的推理结构,涵盖图像描述、数据提取、逻辑推理、因果推理等多种能力。
模型还能够根据问题复杂度自动调整推理链长度,复杂问题的推理步骤更长,表现出自适应的深度探索能力。
为了评估推理模型对于不同中间步骤的利用能力,团队提出了一个新颖的评估方式。
首先通过聚类GPT-4o的推理行为来生成原子步骤分布集合(包含16种行为),构建历史步骤后进行rollout来计算对最近步骤的利用效率。
通过原子能力评估发现模型存在推理误差累计现象,在CoT早期阶段(如数据提取和图像描述)开始继承推理的错误率较高,提示未来工作需关注推理初期的质量控制。
在2025年的今天,全国高考报名人数已经突破了1335万大关,创下了历史新高。面对如此庞大的竞争群体,以及不断深化的高考改革趋势,考生和家长们正面临着前所未有的挑战。特别是随着全国已有29个省份完成了
就在刚刚,马斯克又整大活了!他带着脑机接口Neuralink团队,开了1小时发布会,整个过程亮点满满,全程高能。首先,Neuralink宣布,目前全球已经有七人植入了设备。通过「心灵感应」产品,他们重获跟物理世
近日,GoogleDeepMind正式发布首个可完全在机器人本地部署的视觉-语言-动作模型(Visual-Language-Action,VLA)——GeminiRoboticsOn-Device。这也意味着,具身智能(EmbodiedAI)正在从依赖云端算力,迈入
AI时代,赚钱到底有多快?看看这个以色列老哥你就懂了。昨天,一笔看似“不起眼”的收购在硅谷刷屏:Wix用8000万美元,收下了本土AI编程公司Base44。在动辄上亿的一级市场,这个收购价格不算高。但背后的故事
创新不设限!2024新“智”慧全国AI数字创意大赛吸引百余组选手参赛
「AI教父」辛顿获得2024年诺贝尔物理学奖丨字节豆包将于10月10日发布首款智能硬件丨小鹏P7新车将搭载大模型
抖音开启AI搜索功能灰度测试丨OpenAI CEO奥特曼:2024年无法实现AGI丨夸克APP上线“健康大模型”
比尔·盖茨第18次访华发表重要讲话 | AI正在疯狂污染中文互联网 | 微软与奔驰公司合作将ChatGPT接入车机
一周盘点丨微软 NewBing 升级 | ChatGPT大升级 | Adobe AI增加firefly智能调色功能
图灵奖获得者、Meta首席AI科学家杨立昆:当下的AI智商不如狗,不应将其视作对人类的威胁
Midjourney角色一致性命令 "cref "测评丨如何保持多个角色一致性
OpenAI反水队友放大招!Claude 3重磅发布:实测可基本平替GPT-4应用需求,AI直言点破中美AI技术差距
Sora技术报告逐字解读,遥遥领先?实测效果指数爆炸!
Win11迎接史诗级更新,为你的电脑植入AI大脑,微软终于硬了!