OpenAI GPT-5.1 Pro紧急发布，降维打击Gemini 3

　　新智元报道

　　编辑：桃子好困

今天，是 OpenAI 的主场，同一天祭出两大杀器——GPT-5.1 Pro 和 GPT-5.1-Codex-Max。最强编码模型首次采用「压缩」机制，在数百万 token 上连续编程超 24 小时。

　　AI 圈一日一更的频率，真的是有点跟不住了....

　　前两天，先是 Grok 4.1、Gemini 3 Pro 发布，今天 OpenAI GPT-5.1 Pro 也静默登场了！

没有一篇博文，仅有两句话官宣。

　　众所周知，GPT-5.1 主打「情商智商」双强，Pro 无疑将这两大优势推向更高层次。

同一天，OpenAI 全新王牌代码模型 GPT-5.1-Codex-Max，已经在 Codex 平台正式上线了！

　　从命名上不难看出，它是基于 GPT-5.1 搭载，并在软件、工程、数学、研究等智能体任务专门训练。

由此，GPT-5.1-Codex-Max 能力更强、反应更快，而且用起来更省 token。

　　新模型是专为「长时间、高强度」的开发任务而设计。

　　就这么说吧，它能连续自主工作超 24 小时，一口气处理数百万 token，直接交付成果的那种。

这恰恰印证了，Scaling Law 还在永续。

　　这是因为，GPT-5.1-Codex-Max 是 OpenAI 首个「原生支持压缩」机制的模型，可以跨越多个上下文工作。

　　这下，像项目重构、深度调试、多小时智能体循环这些任务，它都能稳稳接住。

目前，GPT-5.1 Pro 已向所有 Pro 订阅用户推出。

　　GPT-5.1-Codex-Max 已在 Codex 中支持 CLI、IDE 扩展、云端和代码审查使用，API 接口也将很快上线。

2025 年临近收官，AI 终极对决一触即发，GPT-5.1 Pro 与 Gemini 3 Pro 之间，胜负之手将落于谁家？

　　OpenAI 最强编程模型

这次的 GPT-5.1-Codex-Max，那可是在「真实战场」上炼出来的！

　　诸如在 PR 创建、代码审查、前端开发、问答等工程师常见任务中，全部做过专门训练。

　　在多项前沿编码评测中，它都轻松超越了 OpenAI 此前所有模型。

还有在 SWE-bench Verified 上的评估结果中，GPT-5.1-Codex-Max 拿下了 77.9% 的高分。

　　GPT-5.1-Codex-Max 不仅跑分高，实际体验更是大升级！

它是 OpenAI 首个可以在 Windows 环境中运行的模型，训练中还针对 Codex CLI 协作场景做了优化，更好用了。

　　思考 token 暴降 30%

　　不仅如此，GPT-5.1-Codex-Max 用起来也更省钱了。

在同样「medium」（中等）推理强度下，它不光表现比 GPT-5.1-Codex 更好，而且思考过程所用的 token 量减少约 30%。

对于不敏感于延迟的任务，新增的「Extra High」（xhigh）推理强度，可花费更多时间获得优质答案。

　　不过，日常使用的话，OpenAI 还是推荐 medium。

　　token 省下来了，这就意味着在实际开发中，成本可以大幅降低，可谓开发者的福音。

下面这些 demo 中，清晰呈现了 GPT-5.1-Codex-Max 和 GPT-5.1-Codex 使用 token 差异。即便是 token 减少，前者在前端设计中的功能和颜值都不输以往。

比如，让它们生成一个浏览器应用——即可交互的 CartPole 强化学习沙盒，需要包括小型策略梯度控制器、指标面板，以及一个 SVG 网络可视化器。

　　上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max 仅用 27k 思考 token 完成了任务，而且代码更加精简。

　　这个 demo 要求的是，做一个太阳系引力井沙盒，需要可视化物体在 2D 引力势场中的运动，并支拖动平移视图、环绕观察场景。

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

　　GPT-5.1-Codex-Max 同样用了更少的 token，和更精炼的代码完成了任务。

GPT-5.1-Codex-Max 这么强，是因为采用了一套全新机制。

　　狂跑一天，全是「压缩」

　　「压缩」机制让 GPT-5.1-Codex-Max 突破限制，处理那些因上下文太长而原本无法完成的任务。

　　比如，复杂重构和长时间智能体循环。

它会自动整理历史内容，筛选保留最关键的上下文，从而实现在长时间跨度内连贯性。

在 Codex 中，当接近上下文上限时，GPT-5.1-Codex-Max 会自动执行会话压缩，刷新上下文，并多次重复这一过程直到任务完成。

　　下面这个案例中，GPT-5.1-Codex-Max 正在自主重构 Codex CLI 的开源仓库。

　　可以看到，当上下文快满时，它会自动压缩释放空间，从而在不丢失进度情况下完成任务。

视频已经过剪辑和加速处理，以便更清楚地展示过程

　　内部测试显示，GPT-5.1-Codex-Max 能连续自主工作超 24 小时。

　　在此期间，可以不断迭代实现、修复测试失败，并最终交付可用成果。

这种长时间、连贯的任务能力，是迈向更通用、更可靠 AI 系统的通用基石。

　　在 METR 评估中，GPT-5.1-Codex-Max 长程任务能力，成为了新的 SOTA。

在 OpenAI 内部，已有 95% 工程师每周都在用 Codex，自从引入之后，团队的 Pull Request 数量提升约 70%。

　　现在，GPT-5.1-Codex-Max 搭配着持续升级的 CLI、IDE 扩展、云集成与代码审查工具，编程效率直接起飞。

一些网友试用第一手感觉，瞬间惊艳了。

　　GPT-5.1 Pro 上线，首测来了

　　至于 GPT-5.1 Pro，正如开篇所说，OpenAI 只是在版本更新日志里写了两段介绍。

虽然官方没有单开一篇博客，但提前拿到内测资格的大佬们，都非常兴奋地在第一时间放出了自己的体验感受。

　　对于 GPT-5.1 迭代后的性能，Epoch AI 三方评估后称，几乎与 GPT-5 实力相当。

它们在 high（高）推理模式下，能力指数（ECI）得分均 151。

　　杰克森实验室教授、人类免疫学家 Derya Unutmaz 表示，性能相较之前明显提升了一个档次的 GPT-5.0 Pro，是他现在最喜爱的模型。

在下面的例子中，他分别向 5.0 和 5.1 Pro 询问了免疫学领域最重要的未解之谜，并要求这两个模型深入浅出地剖析每个问题，以便让没有免疫学学位的人也能理解其重要性。

其中，前两个回复来自 GPT-5.1 Pro，接下来的两个较短回复来自 GPT-5.0。

　　可以看到，GPT-5.1 Pro 明显更胜一筹，因为它能让没有免疫学背景的人更轻松地理解这些解释，并且清晰地阐明了这些问题的重要性和潜在价值。

对比而言，GPT-5.1 Pro 在清晰度和洞察力方面都有质的提升。它的回答在保持深度的同时，内容更完整自洽、更形象生动、也更易于理解。

　　虽然 GPT-5.0 的回复在内容上也同样出色，但剖析得不够透彻。

　　GPT-5.1 Pro

GPT-5.0

　　HyperWrite AI 的 CEO Matt Shumer 也在一篇超级长的体验报告中表示：GPT-5.1 Pro 是目前最好的「大脑」，虽然很慢，但深思熟虑。

对于大多数日常工作，Gemini 3 更好；毕竟在一个独立的界面中等待 10 分钟才能得到答案显然并不理想。

但对于任何需要深入思考、规划和研究的任务，以及任何必须一次性做对的事情，GPT-5.1 Pro 更好。

　　长文地址：https://shumer.dev/gpt51proreview

反应较慢，但聪明得离谱

　　它不仅比大多数人类更擅长推理，而且在处理真正棘手的难题时，也比其他任何模型都要聪明。

预计几天内，就会出现它解决了一些人们认为当今 AI 系统力所不及的问题的例子。

指令遵循能力是最大的亮点

　　它真的会严格执行你的要求，而不会跑偏。

对于严肃的编码任务，它给人的感觉不那么像一个「助手」，而更像是一个依据规格说明书工作的外包工程师（哪怕你的规格说明书有点模糊）。

前端和用户体验设计，以及写作，都是弱项

　　不管是创意写作，还是设计漂亮的 UI，Gemini 3 都要更胜一筹。

但最大的弱点还是界面

它只能在 ChatGPT 中使用，无法集成到 IDE 里，也无法连接到其他工具链中。这一点与 GPT-5 Pro 如出一辙。

　　参考资料：

　　https://x.com/OpenAI/status/1991266192905179613?s=20

　　https://x.com/OpenAIDevs/status/1991217488550359066?s=20

OpenAI GPT-5.1 Pro紧急发布，降维打击Gemini 3

相关文章

推荐标签