深度解读 OpenAI o3 发布会：不只跑分，它还调用工具解决难题的样子

2025年4月24日2025年4月25日 lingshun

最近 AI 圈的消息有点应接不暇，感觉这边刚消化完一个新模型，那边又冒出来个更厉害的。最近（2025年4月11日），OpenAI 又带着他们的新宝贝——o3 和 o4 mini 模型，还有个叫 Codex CLI 的新工具来了。

你可能想问：“又来？这次有啥不一样？”
好问题！说实话，一开始我也觉得可能又是些性能提升、跑分更高之类的常规操作。但仔细扒了扒他们的发布会信息，发现这次的重点好像有点不一样，特别是在 AI 推理 和 工具使用 这块儿，感觉 OpenAI 是想让 AI 真正走出实验室，开始帮我们干点“正经事”了。虽然使用工具这个技能在其他模型都已经是领跑了几个月了，这篇文章，凌顺实验室（lingshunlab.com）就用大白话聊聊，这次 OpenAI 到底放了什么“大招”。

这 o3 和 o4 Mini，到底“牛”在哪？不只是更聪明，是“会干活”了

首先得说清楚，这次发布的 o3 和 o4 mini，不是简单地比前辈们更“博学”。按照 OpenAI 的说法，它们是第一批真正能产生“优秀且有用的新颖想法”的模型。听起来有点玄乎？别急，关键在于它们学会了一项新技能：像人一样使用工具来解决问题。

想想我们自己，遇到复杂的数学题会用计算器，出门不认识路会开导航 App。这次的 o3 模型，就像是打通了“任督二脉”，被训练得可以在思考过程中，主动调用各种工具（比如代码解释器、网络搜索等）来辅助自己。发布会上提到，o3 甚至能连续调用 600 次工具来啃一个硬骨头任务！这听起来……有点“肝”啊，不过也说明它解决问题的韧性是真强。

Greg Brockman 自己都承认，这些新模型在浏览 OpenAI 自家代码库方面比他本人还强。嗯，有种“教会徒弟，饿死师傅”的既视感，但对于我们这些希望能偷懒（划掉）提高效率的人来说，简直是福音啊！

更酷的是，它们还能“思考图像”。就是说，你可以扔给它一张复杂的、甚至是模糊、颠倒的图片，它能用 Python 代码去处理、分析、裁剪这张图，来完成你的任务。这可比以前只能“看图说话”的 AI 强太多了。[建议插入一张对比图：旧模型看图 vs o3 分析处理图像]

光说不练假把式？看看 o3 是怎么“秀肌肉”的

理论讲完了，咱们看看实际案例。发布会上那几个演示，确实有点东西。

十年物理老海报，AI 帮你“搞定”未完的项目？

研究员 Brandon 拿出了一张他 10 年前实习时做的物理海报，让 o3 分析并对比最新研究。结果 o3 不仅看懂了海报（虽然设计得可能有点……呃，年代感？），分析了图表，还发现海报上缺了最终结果。然后，它居然自己上网搜文献、做计算、外推数据，把当年没完成的工作给续上了！

Brandon 自己都说，他问问题时压根没意识到结果不在海报上，还是 o3 提醒他的。好家伙，这 AI 不仅能干活，还能反过来“教育”用户了？不过它最后也中肯地评价了当年成果：“精度不如最新结果，没关系，那只是个实习项目嘛。” 这话说的，情商挺高啊！
珊瑚礁、音乐和代码：AI 的跨界脑洞

另一个演示里，研究员 Eric 让 o3 结合他的兴趣（潜水、音乐）和新闻，给他讲点新鲜事。o3 居然找到了一个用“播放健康珊瑚礁录音”来修复受损珊瑚礁的研究！这脑洞开得……我是万万没想到。然后，它还麻利地用高级数据分析画了图，生成了博客文章草稿，连参考文献都给你列好了。从想法到产出，一条龙服务。

这些例子说明，AI 推理 能力的提升，让模型不再是死板地回答问题，而是能理解复杂需求，主动规划步骤，调用工具，甚至带点创造性地解决问题。

台上一分钟，台下十年功：跑分和编码能力也得看看

当然，光有花哨的演示还不够，硬实力也得跟上。OpenAI 也展示了新模型在一些“地狱级”基准测试上的表现：

数学竞赛 (AM): o4 mini 使用工具后准确率高达 99%，基本把这个测试给“刷满”了。
编程竞赛 (Code Forces): 跻身世界 Top 200 选手行列。
博士水平问答 (GPQA): o3 得分超过 83%。

更值得注意的是它们解决问题的方式。比如解数学题，它会先用“暴力破解”跑出答案（虽然有点笨），然后意识到“这不优雅”，再自己优化出一个更巧妙的解法，最后还会二次检查。

Wenda 说，他们并没有刻意训练模型要“简化方案”或“二次检查”，是模型自己“悟”出来的。

在编码方面，新模型在 SweetBench（一个模拟真实世界软件开发问题的基准测试）上也表现优异。演示中，o3 high 像个经验丰富的“老司机”一样，通过访问容器环境（预装了代码库的虚拟机），分析 bug 报告，浏览代码文件，检查类继承关系 (MRO)，最终定位问题并打上补丁，还跑了单元测试来确认修复成功。整个过程行云流水，调用了几十次工具交互。[建议插入 SweetBench 解决 bug 流程的简化示意图]

神器降临！Codex CLI：让 AI 直接在你电脑上“干活”

铺垫了这么多模型的强大能力，终于轮到这个新工具——Codex CLI 了。简单说，它就是一个命令行界面，能把 OpenAI 的这些强力模型（比如 o3、o4 mini）直接连接到你的本地电脑。

这意味着什么？你可以直接在终端里，让 AI 帮你分析本地文件、处理本地数据、甚至修改你的代码！

演示中，Michael 小哥先是截了个别人用 o3 mini 做的“图片转 ASCII 艺术”网页的图，然后直接把截图拖进终端，交给 Codex CLI (运行在 o4 mini 上)，说：“照着这个，给我重做一个，再加个摄像头实时输入，还得是 16:9！”

Michael 还吐槽原作者说用 o3 做的，“除非他是时间旅行者”。哈哈，官方吐槽最为致命！

然后，我们就看着 Codex CLI 在终端里“思考”（输出它的想法和计划），然后一步步调用本地命令（比如创建文件、写入代码），中间还会问你是否同意执行（安全模式下）。最后，它真的生成了一个能调用摄像头、实时显示 ASCII 效果的 HTML 文件！虽然那个宽度滑块看起来有点“行为艺术”，但整体功能确实实现了。

这个 Codex CLI 的厉害之处在于，它把强大的 AI 推理 和 工具使用 能力，从云端拉到了你的本地开发环境。对于开发者来说，这简直就是请了个（可能比你还懂某些代码库的）AI 助手坐在旁边。目前这个工具已经开源了，就在 OpenAI 的 GitHub 上。

https://github.com/openai/codex

这样的开发者社区和资源平台，未来估计也会有很多关于如何玩转 Codex CLI 的讨论和教程。

那么，我什么时候能用上这些好东西？

别激动，先看看“领取资格”：

ChatGPT Plus、Team 订阅用户: 从发布日开始逐步推送 o3, o4 mini, o4 mini high 的访问权限，它们会取代之前的 o1 和 o3 mini 系列。
Enterprise、Edu 用户: 可能需要多等一周。
API 用户: 未来几周内会在 API 中上线这些新模型，并且会支持工具使用功能。

OpenAI 也坦诚，为了让推理更快、更实用，模型在某些特定基准测试上的分数可能相比之前分享的内部数据略有波动，但整体是更优化的，尤其是在多模态和实际应用方面。毕竟，谁也不想问个问题等半天对吧？（耐心这东西，在 AI 面前好像越来越稀缺了……）