2 minute read

如果你最近也刷到了 OpenAI 在 12 月 11 日(美西时间)发布 GPT-5.2 的消息,你大概率会看到两类声音: 一类说“终于回来了,编程更强、工具更稳、长任务更能跑”;另一类说“别急着吹,跑分不等于能落地,真上项目可能还是翻车”。

所以这篇文章我想做一件更“对观众负责”的事: 一半讲官方到底在强调什么能力提升;另一半完全照着视频字幕里的测试流程,把我怎么测、测了哪些题、每题结果如何、哪里强哪里弱,客观地公开出来。你看完基本就能判断:GPT-5.2 值不值得你立刻迁移工作流。

🚀本篇笔记所对应的视频:

🔥AI智能体相关视频


一、官方怎么定义 GPT-5.2:更偏“生产力”和“长任务”的旗舰升级

先把官方口径讲清楚,免得我们拿它去做它根本没主打的事情。

从 OpenAI 的官方介绍来看,GPT-5.2 的关键词非常明确:更能创造“经济价值”(productive work),更擅长代码、表格、演示文稿、图像理解、长上下文、多步骤项目与工具调用。也就是:它并不是只追求“聊天更像人”,而是更偏“能把一件复杂事做完”的工作型模型。 ([OpenAI][1])

另外,在 ChatGPT 产品侧,官方把 GPT-5.2 拆成了多个子型号(例如 Instant / Thinking 等),并强调整体沟通风格也做了改善:更适合信息检索、how-to、技术写作、翻译等,同时更自然更顺滑。 ([OpenAI Help Center][2])

再往“工具化”方向看,OpenAI 今年在 Atlas 里推的 agent mode,本质上就是让 ChatGPT 在浏览器里具备更强的任务执行能力(研究、自动化操作、规划等),并且强调“在你的控制下”完成端到端任务。 ([OpenAI][3])

如果把这些官方描述翻译成人话:

GPT-5.2 的野心不是“又会背更多知识点”,而是把模型往“更像一位能做项目的同事”方向推——能读图、能写代码、能串工具、能跑长流程。

这也解释了为什么你在视频里会看到:我不是只做几道 LeetCode,而是用UI 复刻、SVG 动画、PyGame 算法动画、浏览器自动化、Manim 3D 可视化、跨框架重构、iOS 架构迁移、全栈 MVP这类更贴近真实开发的任务来测。


二、我的实测方法:不追求“题刁”,追求“像真实工作一样会暴露问题”

视频里我先把测试原则摆出来: 之前 GPT-5.1 发布时我做过一次测评,结果并不好;当时评论区有反对声音,但几天后开发者社区也开始吐槽“GPT-5.1 还不如 GPT-5.0”。这反过来说明:只要测试案例足够贴近日常工作,就能真实反映模型能力

因此这次测 GPT-5.2,我沿用同一套策略:

  • 题目覆盖面要广:前端/UI、动画、算法、工具自动化、重构、全栈
  • 每题都能验收:要么跑起来,要么明确失败点在哪里
  • 尽量减少主观滤镜:我只记录它做到了什么、没做到什么

三、ChatGPT 网页端:先测“信息新鲜度”,再测“读图+前端落地”

1)知识库截止日期:2025 年 8 月(相对新)

第一步我先问知识库截止日期,GPT-5.2 给到的截止时间是 2025 年 8 月,并且我在视频里提到“比 Claude Opus 4.5 还要新”。这一点的意义在于:它在解释新框架/新工具时,至少不太容易卡在过旧的知识上

2)前端 UI 复刻:复杂仪表盘截图 → 直接给可运行代码

接着我准备了一张“比较复杂的 UI 截图”(仪表盘),然后直接给提示词:

  • 用最适合的前端技术
  • 百分百复刻仪表盘
  • 如果需要图像,直接截取截图里的图像
  • 不要用 placeholder

这里我特意选了 GPT-5.2 Thinking,它思考了 5 分 33 秒,等待时间确实长,但它最后给出了完整代码,打开后复刻效果总体不错:

  • 原图里的“火箭图标”它成功复刻了
  • 左侧侧边栏原图有一排图标,它没有完全还原,但预留了位置 整体结论:读图→结构拆解→前端落地这一段,GPT-5.2 的完成度是可用的,属于“能上手改改就能交付 demo”的水平。

四、SVG 动画:能画但“不会动”,暴露出生成动画的短板

第二个小测试我让它用 SVG 画:猫和狗在草地上一前一后漫步,天空有太阳云,还有飞翔的鸟;然后又追加一句“实现真实动画效果”。

结果很直观:

  • 它能把静态画面画出来
  • 但它没有实现猫狗走动、云朵飘动
  • 它只加了一个“虚线在跳动”的效果

这一段我给的判断也很直接:GPT-5.2 在 SVG 动画代码生成能力上偏弱。 这类任务其实很考验“时间轴 + 多对象运动 + 状态管理”的能力,而它在这题上并没有把“动画”的本质做出来。


五、Python + PyGame 冒泡排序动画:逻辑正确,但美术表达一般

接下来我用一题更像“工程化小项目”的任务来测: 用 Python + PyGame 创建可运行动画:12 只不同大小小鸭子 + 1 只更大的大白鹅;鸭子随机排列在水平线上;鹅使用冒泡排序检查并交换鸭子,让它们从小到大排序。

我在字幕里也解释了这题能测什么:

  • 结构化任务分解
  • 算法逻辑与程序思维
  • 代码生成与模块化
  • 图形与空间建模
  • 动画时序与状态管理

实际结果:

  • 代码能跑起来 ✅
  • 冒泡排序过程正确 ✅(最终确实从小到大排好了)
  • 但画面比较简洁;鹅不太像鹅;鸭和鹅长得几乎一样 ❌

所以这题给出的结论是“工程能力合格,但审美/角色表达弱”: 它能把程序做对,但把“演示效果做得好看”仍需要你人工加强。


六、Atlas 浏览器 Agent Mode:有行动力,但稳定性与资源消耗要警惕

然后我切到 OpenAI 的 Atlas 浏览器,用 GPT-5.2 测“浏览器自动化能力”。任务是:分析特斯拉股票并把结果写进 Google Doc。 按官方说法,Atlas 的 agent mode 目标就是在浏览器里做端到端任务,并允许在你控制下接管/暂停。 ([OpenAI][3])

但我这次实测遇到的问题很典型:

  • 它一开始像是没有直接访问目标网站,而是先生成代码
  • 后续确实打开了网站并自动点击
  • 但等待 8 分 40 秒后仍没有推进关键步骤
  • 更严重的是:它的分析可能消耗过多 CPU,导致电脑风扇狂转、发烫
  • 最终我终止任务(已经接近 10 分钟)

这一段我想给观众一个很现实的提醒:

Agent 能不能“动起来”是一回事,能不能“稳定、省资源、可控地完成”是另一回事。 你如果打算让它长期跑自动化任务,一定要考虑超时、资源限制、失败恢复、以及人类接管机制。


七、Codex 深度测试:强项更突出,但也会在“保持原逻辑”上翻车

接下来是视频的重头:我在 Codex 里做更深的工程测试(字幕里提到先确认 Codex 升级到 0.7.1,并选择 GPT-5.2 模型)。

1)Manim 3D 可视化:能做出来,但质感粗糙

第一题:用 Manim 做数学公式可视化,创建三维动画展现二次函数的立体几何特性。 这题很考验:数学理解、3D 空间推理、工具掌握、视觉设计。

它的执行过程是:先扫描仓库、创建计划、生成代码文件;大概 27 分钟完成,并成功生成视频。 但我播放后给出的评价是:整体比较粗糙,没有做到精细化。 也就是说:它能把“从 0 到 1”跑通,但“从 1 到 10”的质感仍要人来打磨。

2)AutoGen → Google ADK 重构(并接入 Mistral + UI):能迁移,但没保持原运行逻辑,还疑似死循环

第二题我加大难度: 把微软 AutoGen 写的旅游规划智能体,重构为 Google ADK 框架,并且把大模型 API 换成 Mistral,还要加上谷歌官方 UI。 这题本质上是在测:信息检索与文档理解、代码理解与分析、跨框架迁移与重构、API 集成、多任务协调。

它确实做到了很多“表面上很强”的结果:

  • 抓取官方文档
  • 完成从 AutoGen 到 ADK 的代码迁移
  • 把 API 替换成 Mistral
  • 运行后浏览器里也能打开 UI
  • 输入“规划三天尼泊尔旅行计划”能输出结果

但关键翻车点在于:运行逻辑不符合 AutoGen 原项目的流程。 我在字幕里把 AutoGen 原流程说得很清楚: 计划 → 当地向导 → 语言专家 → 最终总结 而它重构出来的 ADK 版本没有保持这个逻辑,甚至看起来陷入死循环一直运行。

这一段结论非常重要:

GPT-5.2 在“把代码搬过去”这件事上能力很强,但在“保持原系统行为一致”上仍可能出错。 这恰恰是工程重构里最难、也最要命的部分:不是能跑就行,而是要“跑得对”。


八、iOS 项目重构:MVVM → MV + @Observable,实测成功,是这期最惊喜的一段

接着我用一个“原生 iOS 项目”继续加大难度:这个项目之前在 Claude Code 里用 Claude Opus 4.5 一次性完成且无报错。现在我让 Codex 把它从 MVVM 重构为 MV + @Observable(iOS 17+)。

结果是:

  • 等待 8 分多钟后,它提示已完成重构
  • 回到 Xcode 重新运行,App 成功启动 ✅
  • 功能正常 ✅(包括设置里切主题等)
  • 对比仓库文件,代码确实完成了架构迁移 ✅ 我在视频里给的评价是“效果非常不错”。

这一段说明:在“有明确目标、可验收、工程边界清晰”的重构任务上,GPT-5.2 的稳定性是显著提升的。


九、全栈 MVP:Next.js + Tailwind + Supabase 的宠物领养平台,能做出骨架,但功能完整度仍需补齐

最后我让它做一个完整的全栈项目:现代化宠物领养平台 MVP。技术栈要求:Next.js + Tailwind CSS + Supabase(后端/数据库/认证),并给了非常详细的字段与功能要求。

它的行为很像“一个会提问的开发者”: 它先提出 6 个确认问题(登录优先方式、宠物类型、年龄展示方式、地区字段、领养申请表字段、仓库是否为空),我回答后它制定计划并开始开发。

验收结果:

  • 项目能启动,能看到主界面 ✅
  • 主题切换 UI 有了,但点击后没有变化(主题切换功能未实现)❌
  • 注册/登录基本可用 ✅(需要邮箱验证)
  • 登录后有小 bug:还显示“登录”字样 ❌
  • 发布宠物信息基本可用 ✅
  • 提交领养申请点击无响应,可能未完全实现 ❌

所以这一题的结论是:

GPT-5.2 可以把“全栈 MVP 的骨架”快速搭出来,并跑通部分核心链路;但在“完整业务闭环”和“细节打磨”上,仍然需要人类开发者补齐与修复。


十、总评:GPT-5.2 的“真实提升”在哪里?又该怎么用才不踩坑?

把整期测试串起来,你会发现 GPT-5.2 的提升是“结构性的”,但不是“无脑全能”。

你能明显感受到它更强的地方

  • 读图 → 前端落地更稳(UI 复刻完成度高)
  • 工程型任务(能跑的代码)更可靠(PyGame、iOS 重构、全栈骨架)
  • 长流程规划与执行更像“在做项目”(计划、生成、修复、迭代)
  • 在官方定位上,它也被强调更擅长代码、工具、长上下文与多步骤项目处理。 ([OpenAI][1])

你需要警惕的短板

  • 动画/视觉细腻表达仍弱(SVG 动画翻车,Manim 成片粗糙)
  • Agent 自动化的稳定性与资源消耗要重点关注(Atlas 任务高 CPU + 超时)
  • 跨框架重构“保持原逻辑一致”仍会出错(AutoGen→ADK 逻辑不一致、疑似死循环)

更推荐的用法(也更符合官方的方向)

  • 把 GPT-5.2 当作“强力工程助理”:搭架子、写初版、做迁移、做拆解、做迭代
  • 用你自己的验收体系约束它:单测/集成测试/运行日志/超时与回滚
  • 对“能跑”保持满意,对“跑得对、跑得美”保持警惕

结语:别只问“它强不强”,更要问“它在哪些任务上更像一个靠谱同事”

这期测评给我的最终判断和视频里一致: GPT-5.2 相比 GPT-5.1,编程能力确实有提升,而且提升主要体现在“工程落地与多步骤任务”上;但它仍然会在动画、审美、Agent 稳定性、以及跨框架逻辑一致性上翻车。

如果你是开发者,我建议你别只看跑分,直接用我这套测试思路: 挑 3~5 个你日常最常做、且能验收的任务,让 GPT-5.2 跑一遍——你会很快得到属于你自己的结论。

Comments