🚀在OpenClaw中实测Claude Opus 4.6与GPT-5.3-Codex！百万Token上下文窗口首次碾压GPT，实测编程、推理、中文能力、Bug排查，七大测试全面揭秘两款顶级模型真实实力

1 minute read

今天凌晨Anthropic 与 OpenAI 几乎同步更新了各自的旗舰能力：Claude Opus 4.6 与 GPT-5.3-Codex 先后登场。两者并不是简单“更聪明一点”的小升级，而是把关注点推向同一个方向：更长的任务链、更稳定的执行，以及更接近最终交付物的输出质量。也就是说，大模型的竞争正在从“生成效果好看”转向“能否在复杂流程里把事情做完”。

🚀本篇笔记所对应的视频：

👉👉👉 通过哔哩哔哩观看

👉👉👉 通过YouTube观看

👉👉👉 Subagents视频

👉👉👉 Gemini CLI视频

👉👉👉 Context Engineering视频

👉👉👉 SuperClaude视频

👉👉👉 Claudia视频

👉👉👉 Task Master视频

👉👉👉 Zen MCP编程视频

👉👉👉 Augment编程视频

👉👉👉 Serena MCP视频

👉👉👉 我的开源项目

👉👉👉 请我喝咖啡

👉👉👉 我的微信：stoeng

Claude Opus 4.6：把超长上下文与稳定性推到可用层级

如果用一句话概括 Opus 4.6 的定位，它更像是“超大材料输入 + 高可靠总结与推理”的强化版。它最突出的变化来自上下文与输出能力的组合升级。

在官方信息中，Opus 4.6 提供了百万级别的上下文窗口（测试阶段）。这意味着它更适合处理以往需要拆成几十段才能喂给模型的工作：例如跨多个文档的合同审阅、产品资料与需求文档的合并、年度经营数据与会议纪要的综合分析、长篇研究报告的结构化改写等。对企业用户来说，百万上下文不仅是“能塞更多文字”，更关键的是减少拆分、减少重复提示、减少中间环节的人为误差，从而让结果更一致。

与“能读很多”相对应，Opus 4.6 也强调了更长的可输出长度。最大输出提升到 128k tokens 的级别后，它更像是一个能一次性产出完整交付的写作与文档机器：从长篇方案、技术设计说明、投标文本，到多章节培训手册、可直接运行的大段代码，以及配套的说明文档，都更容易在一次对话里收敛成最终稿，而不是在多轮“补一段、再补一段”中逐步走形。

更值得关注的是它在长上下文下的“抗衰减”能力。很多人使用长上下文模型时会遇到一种真实痛点：材料塞得越多，模型越容易忽略某些关键信息，或者在后半段回答里逐渐跑偏。Opus 4.6 的更新叙事就是围绕这一点展开：它试图让模型在超长材料里仍能较好地定位关键细节，并把关键约束持续带入推理过程。对于需要“从一堆材料里找关键条款、关键数字、关键结论”的场景，这是决定可用性的一步。

在成本与计费上，Opus 4.6 也提供了更清晰的分段策略：在常规上下文范围内以较低档计费，超过某个超长阈值后进入更高档计费。这样的策略本质上是在鼓励用户把“长上下文”用在真正需要的地方：大多数任务仍然按常规窗口来跑，而真正的“全量材料输入”才使用超长窗口。对团队来说，这也方便把预算与使用场景做更明确的绑定。

总体来看，Claude Opus 4.6 更像是把大模型带回到“知识工作流”的中心：吞进去的是原始材料，出来的是结构化成果，而且在长材料情况下尽量保持稳定与一致。

GPT-5.3-Codex：从“代码生成”转向“可指挥的执行型 Agent”

如果说 Opus 4.6 是把“读得多、写得长、推理稳”做到更可用，那么 GPT-5.3-Codex 的关键词就是：执行与协作。它不只是“更会写代码”，而是把 Codex 的定位从编码助手推进到“可以被指挥完成任务”的执行型智能体。

官方对 GPT-5.3-Codex 的核心描述是更强的 agentic coding 能力：模型不仅能生成代码，还要能理解仓库结构、分析报错日志、在多轮迭代中持续修复问题、按约束提交可用补丁，并且在长任务过程中允许人随时插话纠偏。与传统“你问它答”的模式不同，这更像在带一个能动手的同事：你给目标、给边界、给验收标准，它去跑流程；过程中你发现方向不对，可以随时把它拉回轨道。

在能力衡量上，GPT-5.3-Codex 公开了一组面向真实工程任务的评测表现，包括软件修复类基准、终端执行类基准、以及桌面/操作系统任务类的验证集表现。它传递的信息很直接：这不是单纯做题型模型，而是面向工程落地的模型。对开发团队而言，这类基准是否完美并不是重点，重点是它在“修复、运行、验证、迭代”这些环节里是否更稳定、更省人力。

从参数规格上看，GPT-5.3-Codex 在平台信息中提供了非常大的上下文容量：总上下文达到 400K tokens，最大输出同样指向 128K tokens 的级别。这样的规格意味着它可以在更长的代码上下文里工作，处理更大的仓库片段，或者在一次会话中容纳更完整的测试日志、变更讨论与多轮补丁记录。对于“需要连续几小时推进的大任务”，上下文容量与输出上限往往会直接决定你能否在一个线程里把任务跑通。

成本方面，GPT-5.3-Codex 对开发者的吸引力很大一部分来自计价：输入与输出的单价被控制在更易规模化使用的区间，并且提供缓存输入等机制，适合在“反复迭代同一份上下文”的工作方式下进一步降低成本。当然，现实使用中是否省钱，取决于你如何设计任务：是让模型盲跑，还是让它按步骤产出可验证的中间结果；是一次性给大目标，还是拆成可测试的小里程碑。

另一个与“可用性”强相关的点在于安全与执行边界。Codex 类产品通常会强调在隔离环境中执行、默认限制网络、并对潜在风险操作设定约束。这并不是营销点，而是决定它能否被更大范围团队接入真实工作流的前提：如果模型可以直接在工程环境里动手，就必须同时具备更强的边界与更可控的权限管理。

整体而言，GPT-5.3-Codex 更像是把“写代码”升级为“交付工程结果”：从补丁、测试、命令行操作，到多轮迭代与交付验证，它强调的是完成度与协作效率。

同台对照：它们不只是对手，更像两条路径的分工

把两者放在同一张工作流地图里，你会发现它们的优势区间高度互补。

当你面对的是“材料密度极高”的任务：大量文档、制度、合同、方案、会议纪要、数据表格，需要你从海量信息里抽取关键约束并形成结构化成果，这更接近 Opus 4.6 的主场。它追求的是把复杂输入吞下去之后，依然能稳定地抓住核心事实与约束，并输出长篇且组织良好的结果。

当你面对的是“工程闭环”的任务：仓库级别的修改、修复 bug、补测试、跑命令、看日志、迭代补丁、直到通过验收，这更接近 GPT-5.3-Codex 的主场。它追求的是在长任务里保持执行一致性，并允许你在执行过程中随时干预、调整和推动任务收敛。

对团队最实际的策略往往不是二选一，而是按流程拆解：用更擅长材料整合与推理的模型做输入理解与方案生成，用更擅长执行闭环的模型做工程落地与迭代收敛。模型越强，越不应该把它当“万能问答机”，而要把它放进一个可验证、可回放、可拆解的流程里。真正的提升来自：每一步都有清晰的目标、可检查的产物、明确的边界条件，以及必要时可以人工介入纠偏。

结语：大模型的“下一场比赛”，是交付能力

Claude Opus 4.6 与 GPT-5.3-Codex 这次同日发布，释放了一个清晰信号：大模型正在从“单轮生成能力”走向“复杂任务的完成度”。长上下文、长输出、可控执行、可持续迭代，这些都指向同一件事——模型要开始承担更接近真实工作的责任。

接下来更值得关注的，可能不是谁在某个榜单上高一分，而是它们在你的真实业务里能否减少返工、降低沟通成本、提升交付的一致性。最好的验证方式也很朴素：拿你自己的文档、你自己的仓库、你自己的验收标准，让模型跑一轮可回放的对比测试。最终决定你选谁的，不是宣传语，而是它在你的流程里能不能稳定地把事做完。

🔥 推理测试

灯泡前缀编码谜题
小明想用红色灯泡（R）和绿色灯泡（G）两种灯泡来编码消息。编码规则是：
为消息中每个不同的字母分配一个由R和G组成的编码序列，
然后将消息中所有字母的编码首尾相连，排成一整排灯泡。
为了让接收方能够从左到右无歧义地解码（不使用任何分隔符），
编码方案必须满足前缀条件：
任何一个字母的编码都不能是另一个字母编码的前缀。
例如，如果字母A的编码是"RG"，
那么任何其他字母的编码都不能以"RG"开头（如"RGR"、"RGG"等都不允许）。
现在小明要编码的消息是 "HELLOWORLD"（10个字符），其中各字母出现次数为：

H：1次
E：1次
L：3次
O：2次
W：1次
R：1次
D：1次

共7个不同字母。
请你设计一套最优的编码方案，使得编码整条消息"HELLOWORLD"所需的灯泡总数最少。
要求：

列出每个字母的具体编码
验证你的方案满足前缀条件
计算编码"HELLOWORLD"所需的最小灯泡总数
证明你的方案是最优的（不存在灯泡总数更少的合法方案）

🔥农夫过河

农夫带着一只老虎、一只羊、一条蛇、一只鸡和一筐苹果要过河。

农夫的船一次只能载农夫和一样东西过河。

已知农夫不在的时候，老虎和羊在一起的话，老虎会吃掉羊，如果鸡也在的话，鸡会阻止老虎吃羊；

农夫不在的时候，蛇和鸡在一起的话，蛇会吃掉鸡，如果老虎也在的话，老虎会阻止蛇吃鸡；

农夫不在的时候羊和苹果在一起的话，羊会吃掉苹果，如果蛇也在的话，蛇会阻止羊吃苹果；

老虎不吃鸡(鸡太小不够老虎塞牙缝的)，蛇不吃苹果(蛇不吃素)。

请问农夫如何才能将老虎、羊、蛇、鸡和苹果安全送到对岸？

🔥UI复刻

用最适合的前端技术复刻图中的UI

🔥svg生成

阅读Claude Code Agent teams文档介绍：https://code.claude.com/docs/en/agent-teams

用svg画出Agent teams的架构图，要求具备动态效果。UI设计符合现代UI最佳实践。

并将svg文件发给我。

🔥冒泡排序

用python+pygame建一个可运行的演示冒泡排序的动画程序：
* 画面中有 12 只不同大小的狮子幼崽，以及 1 只更大的**成年狮子**。
* 狮子幼崽排列在一条水平线上。
* 成年狮子使用**冒泡排序算法**对狮子幼崽按大小进行排序（从左到右由小到大）。
* 排序过程要通过动画可视化，狮子幼崽之间的交换应有移动效果。
* 画面风格简洁、流畅、具有非洲大草原的效果。

🔥审查bug测试

我在使用 clawdbot-dingtalk 插件时（npm update clawdbot-dingtalk）
发现一个问题：

我在 OpenClaw 配置了 bindings，想让钉钉消息路由到 dingtalk-agent，
但消息总是被路由到 main agent，bindings 配置似乎被忽略了。

请审查插件源码，找出原因：
/path/to/node_modules/clawdbot-dingtalk/dist/src/

OpenClaw bindings 配置示例：
{
  "bindings": [{
    "agentId": "dingtalk-agent",
    "match": { "channel": "clawdbot-dingtalk" }
  }]
}

🔥数学公式可视化

使用 Manim 可视化二次函数 f(x) = x² - 4x + 3，要求：
显示函数表达式
绘制函数曲线
标注顶点和零点
用动画展示函数图像的绘制过程

Twitter Facebook LinkedIn

AI超元域

🚀在OpenClaw中实测Claude Opus 4.6与GPT-5.3-Codex！百万Token上下文窗口首次碾压GPT，实测编程、推理、中文能力、Bug排查，七大测试全面揭秘两款顶级模型真实实力

Claude Opus 4.6：把超长上下文与稳定性推到可用层级

GPT-5.3-Codex：从“代码生成”转向“可指挥的执行型 Agent”

同台对照：它们不只是对手，更像两条路径的分工

结语：大模型的“下一场比赛”，是交付能力

🔥 推理测试

🔥农夫过河

🔥UI复刻

🔥svg生成

🔥冒泡排序

🔥审查bug测试

🔥数学公式可视化

Comments

You May Also Enjoy

🚀解锁OpenClaw多Agent高级玩法！Token消耗直接减半，这才是正确的使用方式！不同任务分配不同模型，独立Session、独立记忆，独立工作空间，彻底解决记忆污染和上下文混乱问题！保姆级教程来了

🚀🚀OpenClaw/Moltbot自动进化技巧分享！打造全自动智能超级助手，彻底解放双手，让AI越用越聪明！能自动学习避坑！OpenClaw自动操控Claude Code，全程零干预实现规格驱动开发

🚀Clawdbot/Moltbot高级进阶玩法！无需Mac mini和Linux！5分钟实现用手机发消息就能自动开发项目+部署项目+推送代码到GitHub！开发体验直接拉满！保姆级教程来了！

🚀🚀实测Clawdbot彻底改变我的工作方式！一条命令部署，WhatsApp远程控制电脑，自动编程开发，2026年最强个人AI员工来了！自我进化+无限记忆+浏览器自动化！保姆级教程！