来源:AICG工具箱 责编:网络 时间:2025-07-11 10:06:30
仅隔一天,OpenAI再次突然放大招:
一口气,o3和o4 mini同步上线。
依然是最热门推理模型,并且这一次,它们终于能够调用ChatGPT里的各种工具了,包括网络搜索、Python、图像分析、文件解释和图像生成。
也就是说,你现在可以也用o3来生成吉卜力风格的奥特曼抱子图了(doge)。
还不只是能看懂、生成图像,官方提到,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——
这意味着,它们可以基于图像展开思考,be like:
OpenAI表示,o3是他们目前最强大的推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了SOTA,在分析图像、图表和图形等视觉任务中表现尤为出色。
在外部专家评估中,o3在困难现实任务中,能比o1少犯20%的重大错误。
而o4-mini则是一款专为快速、经济高效的推理而优化的小模型。
在专家评估中,o4-mini在非STEM任务以及数据科学领域都超过了前代的o3-mini。
在AIME 2024和AIME 2025中,甚至有超过o3的表现。
即日起,ChatGPT的Plus、Pro会员以及Team用户,都能直接体验o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high则已悄然下架。
所以,在基准测试上表现如此强势的o3和o4-mini,具体能带来哪些体验上的改变?
Talk is cheap,来看实测案例。
在OpenAI的官方直播中,研究员们展示了这样一个用法:
让o3直接读一份未完成的学术海报,让它根据其中的研究线索,帮忙估算质子的同位旋矢量标量电荷,并搜索相关最新研究成果,对比新成果跟估算值的不同。
思考了不到3分钟,o3完全没有被难住,吐出了这样的结果:
网友们也第一时间给o3和o4-mini上了小球测试:
△
还有医学教授在抢先体验后表示:完全停不下来。
我觉得o3的智能程度已经达到或接近天才水平了!
这位医学专家表示,他在向o3提出一些颇具挑战的临床或医学问题时,o3能给出像直接来自顶级专科医生的回答。
我们也简单测试了一下,比如让o3和o4-mini分别解读一下“洛就完了”表情包。
o3:
o4-mini:
你pick哪个答案?
值得注意的是,在OpenAI o3的开发过程中,研究人员观察到:
大规模强化学习呈现出与预训练一样的“更大计算量=更好性能”的趋势。
而o3正是通过在强化学习中践行Scaling Law,得到了明显的性能提升。
OpenAI表示:
这证明了模型性能会随着思考时间的增加而持续提升。
在延迟和成本与OpenAI o1相同的条件下,o3实现了更强的性能——而且我们已经验证,如果让它思考更长时间,它的性能还会持续提升。
不过自打DeepSeek成了搅动大模型格局的鲶鱼,OpenAI也是越来越强调“性价比”了:
相比o1和o3-mini,o3和o4-mini更强了,但却更经济了!
比如,在AIME 2025中,o4-mini比之o3-mini、o3比之o1,都能在同样的推理成本下拿到更高的分数。
API定价方面,拉上1天前刚刚亮相的GPT-4.1,具体价格如下:
OpenAI再次开源了!发布一款一款本地代码智能体Codex CLI。
可将自然语言转化为可运行的代码,兼容所有OpenAI模型,包括刚刚发布的o3、o4-mini和GPT-4.1。
Codex CLI为已经习惯使用终端,并希望拥有ChatGPT级别推理能力以及实际运行代码、操作文件和迭代能力的开发者打造。
它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库。
GitHub项目:https://github.com/openai/codex
在2025年的今天,全国高考报名人数已经突破了1335万大关,创下了历史新高。面对如此庞大的竞争群体,以及不断深化的高考改革趋势,考生和家长们正面临着前所未有的挑战。特别是随着全国已有29个省份完成了
快手可能找到了AI聊天机器人与社交软件合体的最佳方式。最近很多快手用户发现,一个名叫「AI小快」的账号格外活跃,与网友聊得火热,一个抛梗、一个接梗…
就在刚刚,马斯克又整大活了!他带着脑机接口Neuralink团队,开了1小时发布会,整个过程亮点满满,全程高能。首先,Neuralink宣布,目前全球已经有七人植入了设备。通过「心灵感应」产品,他们重获跟物理世
近日,GoogleDeepMind正式发布首个可完全在机器人本地部署的视觉-语言-动作模型(Visual-Language-Action,VLA)——GeminiRoboticsOn-Device。这也意味着,具身智能(EmbodiedAI)正在从依赖云端算力,迈入
创新不设限!2024新“智”慧全国AI数字创意大赛吸引百余组选手参赛
「AI教父」辛顿获得2024年诺贝尔物理学奖丨字节豆包将于10月10日发布首款智能硬件丨小鹏P7新车将搭载大模型
抖音开启AI搜索功能灰度测试丨OpenAI CEO奥特曼:2024年无法实现AGI丨夸克APP上线“健康大模型”
OpenAI反水队友放大招!Claude 3重磅发布:实测可基本平替GPT-4应用需求,AI直言点破中美AI技术差距
Sora技术报告逐字解读,遥遥领先?实测效果指数爆炸!
Win11迎接史诗级更新,为你的电脑植入AI大脑,微软终于硬了!
网易出品的免费AI在线绘画工具:AI绘画工坊,安利给大家
如何优化AI提示词_AI提示词怎么写更好_如何写好AI提示词
体验完ChatGPT最新联网插件Web browsing,我们发现了以下好处与坏处
如何利用Whee辅助制作APP动态启动页丨附保姆级提示词教程