来源:AICG工具箱 责编:网络 时间:2025-08-16 07:05:28
在SIGGRAPH大会上,英伟达推出开源物理AI与机器人视觉推理模型CosmosReason,可将复杂指令分解为任务并用常识执行。
在当地时间周一揭幕的行业顶级会议SIGGRAPH(国际计算机协会计算机图形学和交互技术特别兴趣小组年度会议)上,“全球股王”英伟达推出一系列面向机器人开发者的世界模型、应用库和基础设施。
其中,最引人关注的是参数量只有70亿的开源物理AI应用和机器人视觉推理模型CosmosReason。
英伟达介绍称,自从OpenAI多年前发布CLIP模型以来,视觉语言模型已经改变了计算机视觉任务,例如物体与模式的识别等。然而,此前的模型无法解决多步骤任务,也难以应对模糊或新颖的现实体验。
凭借记忆和理解能力,CosmosReason能够使机器人和AI具身代理“像人类一样推理”,并在真实世界中采取行动。
在英伟达给出的案例中,运行视觉推理模型的机器人手臂,成功根据“面包+烤面包机”的场景,推断出最合理的下一步动作是将面包放进烤面包机进行烘烤,并将思考逻辑转化成机器手臂的操作指令。
(来源:英伟达)
这项功能叫做“机器人规划与推理”。CosmosReason能够作为机器人的“大脑”,负责有意识、条理化的决策。视觉推理模型能够解释环境,并在面对复杂指令时将其分解为任务并利用常识执行。
除此之外,这个模型还能用于一系列AI应用。例如自动化对大规模、多样化训练数据集进行整理、标注,也能从海量视频数据中提取有价值的信息并进行归因分析。
目前这个模型已经投入商业化运营。英伟达披露,公司内部的机器人和自动驾驶团队正使用这个模型进行数据整理与过滤、标注以及VLA(视觉语言动作)后训练。优步(Uber)也在使用该模型为自动驾驶训练数据进行标注与生成说明。
除此之外,麦格纳国际正在使用该模型开发全自动即时配送解决方案CityDelivery,用来帮助车辆更快适应新城市环境。VASTData、MilestoneSystems也在交通监控自动化、视觉检测等领域应用该模型。
除了CosmosReason,英伟达也在Cosmos世界模型中新增了CosmosTransfer-2,用来加速从3D仿真等场景生成合成数据,以及一个经过蒸馏、更为注重速度优化的CosmosTransfers版本。
英伟达也在周一更新了Omniverse软件开发工具包,并公布了新的神经重建库。其中包括一种渲染技术库,允许开发者使用传感器数据在三维中模拟现实世界。
这一系列发布标志着AI芯片巨头正在加码进军机器人领域,试图将其培养成AI数据中心之外的下一个重要应用场景。
Stable Diffusion 3 终于开源了。 当初SD3 API放出来的时候,他的公司Stability AI已经出现大大小小很多的裂缝了。 先是在今年3月23日,Stability AI的CEO Emad Mostaque宣布辞职。 第一季度结束的时候,Stability AI的营收不到500万美元,亏损超过3000万美元。此外,他们还拖欠云计算供应商和其他公司近1亿美元的账单,可以说,Stability AI已经乱成一锅粥了。
近日,OpenAI为ChatGPT推出了插件功能,通过插件集的Web browsing(网络浏览器)功能,ChatGPT就能实现联网,即时地检索互联网上的最新资讯。
新一代国产AI视频生成大模型,国内短视频龙头快手出品的AI视频生成大模型「可灵」,迄今为止最接近OpenAI Sora等世界顶级模型的新产品。
boardmix博思白板官方版是一款专业高效的办公协作软件。boardmix博思白板最新版集思维导图、流程图、多种创意表达绘图工具于一体,能够实现数字化多人在线实时编辑,提高办公效率。
Stable Diffusion四大基础模型测评丨附整合包下载地址
打工人必备ai软件_ai软件推荐_有什么好用的ai软件
体验完ChatGPT最新联网插件Web browsing,我们发现了以下好处与坏处
美图WHEE是什么_美图WHEE怎么用_美图WHEE使用教程
怎么修改midjourney图片质量
苹果发布新一代iPad mini 7搭载「苹果AI」丨Adobe发布多款在线AI修图工具丨微软AI部门副总裁离职加盟OpenAI
腾讯与微软应用商店Microsoft Store达成移动APP下载合作:超1500款应用登陆Windows,将开设AI专区
GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三
英伟达推出免训练,可生成连贯图片的文生图模型ConsiStory
梦幻联动,巨人网络与阿里云签署合作备忘录,将挖掘AI与游戏融合的新玩法