AI超元域的博客

🚀开发者必看！GPT-5.2深度实测！基准测试碾压Claude Opus 4.5？Codex实测揭秘其真实编程水平，请不要继续吹捧了！

2025-12-11T00:00:00+08:00

如果你最近也刷到了 OpenAI 在 12 月 11 日（美西时间）发布 GPT-5.2 的消息，你大概率会看到两类声音：一类说“终于回来了，编程更强、工具更稳、长任务更能跑”；另一类说“别急着吹，跑分不等于能落地，真上项目可能还是翻车”。

所以这篇文章我想做一件更“对观众负责”的事：一半讲官方到底在强调什么能力提升；另一半完全照着视频字幕里的测试流程，把我怎么测、测了哪些题、每题结果如何、哪里强哪里弱，客观地公开出来。你看完基本就能判断：GPT-5.2 值不值得你立刻迁移工作流。

一、官方怎么定义 GPT-5.2：更偏“生产力”和“长任务”的旗舰升级

先把官方口径讲清楚，免得我们拿它去做它根本没主打的事情。

从 OpenAI 的官方介绍来看，GPT-5.2 的关键词非常明确：更能创造“经济价值”（productive work），更擅长代码、表格、演示文稿、图像理解、长上下文、多步骤项目与工具调用。也就是：它并不是只追求“聊天更像人”，而是更偏“能把一件复杂事做完”的工作型模型。 ([OpenAI][1])

另外，在 ChatGPT 产品侧，官方把 GPT-5.2 拆成了多个子型号（例如 Instant / Thinking 等），并强调整体沟通风格也做了改善：更适合信息检索、how-to、技术写作、翻译等，同时更自然更顺滑。 ([OpenAI Help Center][2])

再往“工具化”方向看，OpenAI 今年在 Atlas 里推的 agent mode，本质上就是让 ChatGPT 在浏览器里具备更强的任务执行能力（研究、自动化操作、规划等），并且强调“在你的控制下”完成端到端任务。 ([OpenAI][3])

如果把这些官方描述翻译成人话：

这也解释了为什么你在视频里会看到：我不是只做几道 LeetCode，而是用UI 复刻、SVG 动画、PyGame 算法动画、浏览器自动化、Manim 3D 可视化、跨框架重构、iOS 架构迁移、全栈 MVP这类更贴近真实开发的任务来测。

二、我的实测方法：不追求“题刁”，追求“像真实工作一样会暴露问题”

视频里我先把测试原则摆出来：之前 GPT-5.1 发布时我做过一次测评，结果并不好；当时评论区有反对声音，但几天后开发者社区也开始吐槽“GPT-5.1 还不如 GPT-5.0”。这反过来说明：只要测试案例足够贴近日常工作，就能真实反映模型能力。

因此这次测 GPT-5.2，我沿用同一套策略：

题目覆盖面要广：前端/UI、动画、算法、工具自动化、重构、全栈
每题都能验收：要么跑起来，要么明确失败点在哪里
尽量减少主观滤镜：我只记录它做到了什么、没做到什么

三、ChatGPT 网页端：先测“信息新鲜度”，再测“读图+前端落地”

1）知识库截止日期：2025 年 8 月（相对新）

第一步我先问知识库截止日期，GPT-5.2 给到的截止时间是 2025 年 8 月，并且我在视频里提到“比 Claude Opus 4.5 还要新”。这一点的意义在于：它在解释新框架/新工具时，至少不太容易卡在过旧的知识上。

2）前端 UI 复刻：复杂仪表盘截图 → 直接给可运行代码

接着我准备了一张“比较复杂的 UI 截图”（仪表盘），然后直接给提示词：

用最适合的前端技术
百分百复刻仪表盘
如果需要图像，直接截取截图里的图像
不要用 placeholder

这里我特意选了 GPT-5.2 Thinking，它思考了 5 分 33 秒，等待时间确实长，但它最后给出了完整代码，打开后复刻效果总体不错：

原图里的“火箭图标”它成功复刻了
左侧侧边栏原图有一排图标，它没有完全还原，但预留了位置 整体结论：读图→结构拆解→前端落地这一段，GPT-5.2 的完成度是可用的，属于“能上手改改就能交付 demo”的水平。

四、SVG 动画：能画但“不会动”，暴露出生成动画的短板

第二个小测试我让它用 SVG 画：猫和狗在草地上一前一后漫步，天空有太阳云，还有飞翔的鸟；然后又追加一句“实现真实动画效果”。

结果很直观：

它能把静态画面画出来
但它没有实现猫狗走动、云朵飘动
它只加了一个“虚线在跳动”的效果

这一段我给的判断也很直接：GPT-5.2 在 SVG 动画代码生成能力上偏弱。这类任务其实很考验“时间轴 + 多对象运动 + 状态管理”的能力，而它在这题上并没有把“动画”的本质做出来。

五、Python + PyGame 冒泡排序动画：逻辑正确，但美术表达一般

接下来我用一题更像“工程化小项目”的任务来测：用 Python + PyGame 创建可运行动画：12 只不同大小小鸭子 + 1 只更大的大白鹅；鸭子随机排列在水平线上；鹅使用冒泡排序检查并交换鸭子，让它们从小到大排序。

我在字幕里也解释了这题能测什么：

结构化任务分解
算法逻辑与程序思维
代码生成与模块化
图形与空间建模
动画时序与状态管理

实际结果：

代码能跑起来 ✅
冒泡排序过程正确 ✅（最终确实从小到大排好了）
但画面比较简洁；鹅不太像鹅；鸭和鹅长得几乎一样 ❌

所以这题给出的结论是“工程能力合格，但审美/角色表达弱”：它能把程序做对，但把“演示效果做得好看”仍需要你人工加强。

六、Atlas 浏览器 Agent Mode：有行动力，但稳定性与资源消耗要警惕

然后我切到 OpenAI 的 Atlas 浏览器，用 GPT-5.2 测“浏览器自动化能力”。任务是：分析特斯拉股票并把结果写进 Google Doc。按官方说法，Atlas 的 agent mode 目标就是在浏览器里做端到端任务，并允许在你控制下接管/暂停。 ([OpenAI][3])

但我这次实测遇到的问题很典型：

它一开始像是没有直接访问目标网站，而是先生成代码
后续确实打开了网站并自动点击
但等待 8 分 40 秒后仍没有推进关键步骤
更严重的是：它的分析可能消耗过多 CPU，导致电脑风扇狂转、发烫
最终我终止任务（已经接近 10 分钟）

这一段我想给观众一个很现实的提醒：

七、Codex 深度测试：强项更突出，但也会在“保持原逻辑”上翻车

接下来是视频的重头：我在 Codex 里做更深的工程测试（字幕里提到先确认 Codex 升级到 0.7.1，并选择 GPT-5.2 模型）。

1）Manim 3D 可视化：能做出来，但质感粗糙

第一题：用 Manim 做数学公式可视化，创建三维动画展现二次函数的立体几何特性。这题很考验：数学理解、3D 空间推理、工具掌握、视觉设计。

它的执行过程是：先扫描仓库、创建计划、生成代码文件；大概 27 分钟完成，并成功生成视频。但我播放后给出的评价是：整体比较粗糙，没有做到精细化。也就是说：它能把“从 0 到 1”跑通，但“从 1 到 10”的质感仍要人来打磨。

2）AutoGen → Google ADK 重构（并接入 Mistral + UI）：能迁移，但没保持原运行逻辑，还疑似死循环

第二题我加大难度：把微软 AutoGen 写的旅游规划智能体，重构为 Google ADK 框架，并且把大模型 API 换成 Mistral，还要加上谷歌官方 UI。这题本质上是在测：信息检索与文档理解、代码理解与分析、跨框架迁移与重构、API 集成、多任务协调。

它确实做到了很多“表面上很强”的结果：

抓取官方文档
完成从 AutoGen 到 ADK 的代码迁移
把 API 替换成 Mistral
运行后浏览器里也能打开 UI
输入“规划三天尼泊尔旅行计划”能输出结果

但关键翻车点在于：运行逻辑不符合 AutoGen 原项目的流程。我在字幕里把 AutoGen 原流程说得很清楚：计划 → 当地向导 → 语言专家 → 最终总结而它重构出来的 ADK 版本没有保持这个逻辑，甚至看起来陷入死循环一直运行。

这一段结论非常重要：

八、iOS 项目重构：MVVM → MV + @Observable，实测成功，是这期最惊喜的一段

接着我用一个“原生 iOS 项目”继续加大难度：这个项目之前在 Claude Code 里用 Claude Opus 4.5 一次性完成且无报错。现在我让 Codex 把它从 MVVM 重构为 MV + @Observable（iOS 17+）。

结果是：

等待 8 分多钟后，它提示已完成重构
回到 Xcode 重新运行，App 成功启动 ✅
功能正常 ✅（包括设置里切主题等）
对比仓库文件，代码确实完成了架构迁移 ✅ 我在视频里给的评价是“效果非常不错”。

这一段说明：在“有明确目标、可验收、工程边界清晰”的重构任务上，GPT-5.2 的稳定性是显著提升的。

九、全栈 MVP：Next.js + Tailwind + Supabase 的宠物领养平台，能做出骨架，但功能完整度仍需补齐

最后我让它做一个完整的全栈项目：现代化宠物领养平台 MVP。技术栈要求：Next.js + Tailwind CSS + Supabase（后端/数据库/认证），并给了非常详细的字段与功能要求。

它的行为很像“一个会提问的开发者”：它先提出 6 个确认问题（登录优先方式、宠物类型、年龄展示方式、地区字段、领养申请表字段、仓库是否为空），我回答后它制定计划并开始开发。

验收结果：

项目能启动，能看到主界面 ✅
主题切换 UI 有了，但点击后没有变化（主题切换功能未实现）❌
注册/登录基本可用 ✅（需要邮箱验证）
登录后有小 bug：还显示“登录”字样 ❌
发布宠物信息基本可用 ✅
提交领养申请点击无响应，可能未完全实现 ❌

所以这一题的结论是：

十、总评：GPT-5.2 的“真实提升”在哪里？又该怎么用才不踩坑？

把整期测试串起来，你会发现 GPT-5.2 的提升是“结构性的”，但不是“无脑全能”。

你能明显感受到它更强的地方

读图 → 前端落地更稳（UI 复刻完成度高）
工程型任务（能跑的代码）更可靠（PyGame、iOS 重构、全栈骨架）
长流程规划与执行更像“在做项目”（计划、生成、修复、迭代）
在官方定位上，它也被强调更擅长代码、工具、长上下文与多步骤项目处理。 ([OpenAI][1])

你需要警惕的短板

动画/视觉细腻表达仍弱（SVG 动画翻车，Manim 成片粗糙）
Agent 自动化的稳定性与资源消耗要重点关注（Atlas 任务高 CPU + 超时）
跨框架重构“保持原逻辑一致”仍会出错（AutoGen→ADK 逻辑不一致、疑似死循环）

更推荐的用法（也更符合官方的方向）

把 GPT-5.2 当作“强力工程助理”：搭架子、写初版、做迁移、做拆解、做迭代
用你自己的验收体系约束它：单测/集成测试/运行日志/超时与回滚
对“能跑”保持满意，对“跑得对、跑得美”保持警惕

结语：别只问“它强不强”，更要问“它在哪些任务上更像一个靠谱同事”

这期测评给我的最终判断和视频里一致： GPT-5.2 相比 GPT-5.1，编程能力确实有提升，而且提升主要体现在“工程落地与多步骤任务”上；但它仍然会在动画、审美、Agent 稳定性、以及跨框架逻辑一致性上翻车。

如果你是开发者，我建议你别只看跑分，直接用我这套测试思路：挑 3~5 个你日常最常做、且能验收的任务，让 GPT-5.2 跑一遍——你会很快得到属于你自己的结论。

🚀【深度实测】智谱GLM-4.6V登场！9B模型支持本地部署，视觉能力全面SOTA，更有原生Function Calling加持！连模糊的 PDF 和潦草公式都能识别

2025-12-10T00:00:00+08:00

刚刚，智谱AI正式发布了 GLM-4.6V 系列多模态模型！作为国产大模型的领军者，这次更新不仅带来了性能上的全面提升，更是在“视觉感知”到“行动执行”的链路上迈出了关键一步。

我也在第一时间拿到了模型，并进行了一整天的高强度“地狱级”实测。结果如何？到底是“挤牙膏”还是“王炸”？这篇文章带你一探究竟！

01 全系升级：从端侧到云端的全能选手

这次GLM-4.6V系列主要包含两款核心模型，精准覆盖了不同的使用场景：

⚡️ GLM-4.6V-Flash (9B)：轻量级之王
- 定位： 专为本地部署和低延迟应用优化。
- 亮点： 仅9B参数，普通显卡即可跑起来，响应速度极快。
☁️ GLM-4.6V (106B)：最强性能怪兽
- 定位： 专为云端和高性能集群设计，处理复杂任务。
- 亮点： 视觉理解精度达到同等参数规模 SOTA（目前最佳）。

🔥 核心优势一览：

原生Function Calling（函数调用）： 首次将Function Calling原生融入视觉模型。这意味着模型不仅能“看懂”图片，还能根据图片内容直接调用工具去“干活”，打通了视觉感知到可执行行动的闭环。
超长上下文： 支持 128K context。它不需要将文档转为纯文本，而是直接理解文档的布局、图表、图形，哪怕是包含大量图像的复杂文档也能精准拿捏。
屠榜级表现： 在通用视觉问答、OCR、图表理解、空间感知等基准测试中，得分全面超越 GLM-4.5V、Qwen-VL、Kimi VL 以及 STEP 32-21B 系列。
前端神器： 支持前端复现与可视化编辑，一张截图直接变代码。

02 硬核实测：真金不怕火炼

光看参数没用，是骡子是马，拉出来遛遛。视频中，我们从本地部署到云端API，对这两款模型进行了全方位的综合能力测试。

🛠️ 场景一：GLM-4.6V-Flash 本地部署初体验

对于开发者来说，能本地跑才是真理。

我们使用 Ubuntu 系统 + RTX A6000 显卡，通过 vLLM 框架成功部署了 9B 参数的 Flash 版本。部署过程非常丝滑，同时也支持 LM Studio 一键下载使用。

测试结果：

上传一张“派对角落里戴帽子的男性”趣味图，让模型配内心独白。

评价： 9B的小模型精准捕捉到了人物的神态和派对的氛围，本地推理速度极快，完全可用于生产环境。

💻 场景二：UI截图变代码（前端工程师狂喜？）

我们直接给 106B 模型投喂了一张布局非常复杂的仪表盘 UI 截图，要求它“用 React + Tailwind CSS 百分百复刻”。

测试结果：

模型迅速给出了完整的代码。

优点： 整体布局还原度极高，甚至贴心地为原图中的火箭图标预留了图片位。
不足： 原图中图表卡片的宽度比较宽，模型复刻版稍微窄了一些（但这完全可以通过多轮对话微调）。

评价： 这绝对是前端开发的效率神器，基本实现了“截图即代码”。

📝 场景三：极限OCR挑战（手写、模糊、公式）

多模态模型最常用的场景就是 OCR，这次我们上了“大刑伺候”：

复杂笔记： 提取包含序号、列表的笔记图片。
- ✅ 结果： 格式、内容完全正确。
高糊PDF扫描件： 肉眼几乎无法识别的小字，且带有噪点。
- ✅ 结果： 标题、页码、正文全对！唯一一处错误是因为单元格被噪点完全遮挡，除此之外，连图表描述和小字都提取出来了。
潦草手写公式： 拍摄的复杂排版手写数学公式。
- ✅ 结果： 无论是竖排内容还是复杂的数学符号，全部识别正确。

评价： 在 OCR 领域，GLM-4.6V 的表现堪称惊艳，抗干扰能力极强。

🔍 场景四：视觉“找茬”与细粒度识别

逻辑判断： 给它看一张“伪·清明上河图”，里面藏着摩托艇和自行车。
- ✅ 结果： 秒回“时代错乱”，精准指出现代交通工具不匹配，并给出了红框标注（Bounding Box）。
物体检测： 在大图中寻找隐蔽的鳄鱼和恐龙。
- ✅ 结果： 即使放大后很难找，模型依然给出了准确的坐标标注。
专家级分类： 10只不同品种的猫、10只不同品种的狗并排站。
- ✅ 结果： 从左到右，纽芬兰犬、柴犬、边牧……全部正确识别，一个没乱。

📊 场景五：图文混排与论文解析

这也是本次的一大亮点。

新闻生成： 搜索2025新舰试飞资讯，直接生成图文并茂的新闻稿，排版专业。
论文解读： 上传一篇 arXiv 的大模型微调论文，要求“翻译并输出图文公众号”。模型不仅翻译了摘要，还智能截取了论文中的架构图插入文中，可读性极高。

03 杀手锏：原生 Function Calling 实战

这是我认为最酷的功能。以往的 Vision 模型只能“看”，现在它能“做”。

我们通过 API 构建了一个 “多模态旅行规划 Agent”。

输入： 一张手机截图，上面是简略的“新加坡三日游”备忘录。
任务： 根据图片，规划一个2025年12月20日的可执行行程。

执行过程：

代码后台显示，模型先是读取图片，识别出行程是“滨海湾、文化乐园、自然离岛”三天主题，然后自主调用了我们预设的工具函数。

最终结果：

输出了一份包含具体时间、交通建议、门票预订、餐饮推荐的详细方案，且预算和主题完全贴合原图。

这意味着，未来的 AI Agent 可以直接看着你的屏幕截图帮你订票、做表、发邮件，这才是真正的多模态助手！

总结

经过一上午的详细测评，GLM-4.6V 给我的最大感受就是：稳且强。

无论是 Flash 版本在本地部署的轻量高效，还是 106B 版本在复杂视觉理解、OCR 甚至代码生成上的精准度，都展示了国产开源视觉模型的巨大进步。特别是原生 Function Calling 的加入，让“视觉大模型”不仅仅是聊天工具，更成为了能干活的生产力工具。

如果你也想体验：

本地部署： 推荐 LM Studio 或 vLLM 部署 GLM-4.6V-Flash。
在线体验： 国内用户可直接前往 BigModel 平台，海外用户可使用 ZhiPu AI 平台。

本文基于真实视频测评撰写，客观展示 GLM-4.6V 实际表现。

🚀api:

https://bigmodel.cn/usercenter/proj-mgmt/apikeys

https://z.ai/manage-apikey/apikey-list

🚀调用vLLM示例

python -m venv .venv
source .venv/bin/activate

# 安装 vLLM（官方要求 vLLM>=0.12.0）
pip install "vllm>=0.12.0"

# 安装 Transformers 5.x RC（GLM-4V 的自定义类在这里）
pip install "transformers>=5.0.0rc0"

# 视图处理依赖
pip install pillow

vllm serve zai-org/GLM-4.6V-Flash \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --tool-call-parser glm45 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --allowed-local-media-path / \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --max-model-len 65536 \
  --gpu-memory-utilization 0.9

from openai import OpenAI

# 指向你的 vLLM 服务
client = OpenAI(
    api_key="EMPTY",                    # vLLM 不校验，但字段必须存在
    base_url="http://localhost:8000/v1"
)

resp = client.chat.completions.create(
    model="zai-org/GLM-4.6V-Flash",     # 与 vllm serve 中的模型名一致
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "请用中文详细描述这张图片，并分析一下这可能是哪种场景、适合做什么用？",
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.pixabay.com/photo/2025/11/06/04/45/water-9939988_1280.jpg"
                    },
                },
            ],
        }
    ],
    max_tokens=1024,
    # 采样参数：结合模型卡推荐 + vLLM 文档
    temperature=0.8,        # 模型卡推荐值之一
    top_p=0.6,              # 模型卡推荐值之一
    extra_body={            # OpenAI 不支持的参数用 extra_body 传给 vLLM
        "top_k": 2,
        "repetition_penalty": 1.1,
    },
)

print(resp.choices[0].message.content)

Function Calling代码

# 如果还没装 zhipuai，可以先装一次
!pip install -q zhipuai

import os
import json
import base64
from datetime import datetime
from typing import Dict, Any, List

from zhipuai import ZhipuAI

# ================== 0. 初始化客户端（从 Colab userdata 或环境变量读取 API Key） ==================

api_key = None
try:
    from google.colab import userdata
    api_key = userdata.get("ZHIPU_API_KEY")
except Exception:
    pass

if not api_key:
    api_key = os.environ.get("ZHIPU_API_KEY")

assert api_key, "请先在 Colab userdata 或环境变量中设置 ZHIPU_API_KEY"

client = ZhipuAI(api_key=api_key)

# ================== 1. 工具函数：从本地文件读取图片并转为 data URI ==================

def encode_image_to_data_uri(path: str) -> str:
    """
    从本地路径读取图片，转成 data:image/...;base64,xxxx 形式
    只支持常见 jpg/jpeg/png，就够我们这个 demo 用了。
    """
    assert os.path.exists(path), f"图片文件不存在: {path}"

    ext = os.path.splitext(path)[1].lower()
    if ext in [".jpg", ".jpeg"]:
        mime = "image/jpeg"
    elif ext in [".png"]:
        mime = "image/png"
    else:
        # 默认按 jpeg 处理
        mime = "image/jpeg"

    with open(path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode("utf-8")

    data_uri = f"data:{mime};base64,{b64}"
    print(f"[Image] 已从本地读取图片 {path} 并转为 base64，长度 = {len(b64)} chars")
    return data_uri

def safe_print_messages_for_log(messages: List[Dict[str, Any]]) -> None:
    """
    打日志时过滤掉 image_url 里的 base64 内容，防止 Colab 页面卡死。
    无论是 'data:image/...;base64,xxxx' 还是 '/9j/4Q...'，统统只显示前几十个字符 + 长度。
    """
    import copy
    masked = copy.deepcopy(messages)

    for m in masked:
        content = m.get("content")
        # content 可能是字符串，也可能是 list（多模态）
        if isinstance(content, list):
            for part in content:
                if isinstance(part, dict) and part.get("type") == "image_url":
                    img = part.get("image_url", {})
                    url = img.get("url")
                    if isinstance(url, str):
                        # 不管是不是 data:image 或裸 base64，一律截断
                        short = url[:40]
                        img["url"] = f"{short}...{len(url)}>"
        # 如果 content 是字符串且非常长，也可以选择截断（可选）
        elif isinstance(content, str) and len(content) > 500:
            m["content"] = content[:500] + f"...{len(content)}>"

    print(json.dumps(masked, ensure_ascii=False, indent=2))

# ================== 2. 业务函数：plan_trip ==================

def plan_trip(
    destination: str,
    start_date: str,
    days: int,
    budget_level: str,
    interests: List[str] = None,
) -> Dict[str, Any]:
    """
    旅行规划函数：带参数校验和结构化输出。
    注意：这里完全不处理图像，图像只在 LLM 侧用于“决定这些参数”。
    """
    interests = interests or []

    # 基本校验
    if days <= 0 or days > 30:
        return {
            "success": False,
            "error_code": "INVALID_DAYS",
            "error": "行程天数必须在 1~30 天之间",
        }

    try:
        start = datetime.fromisoformat(start_date)
    except Exception:
        return {
            "success": False,
            "error_code": "INVALID_DATE",
            "error": "start_date 必须是 ISO 格式，例如 2025-12-01",
        }

    if budget_level not in ("economy", "standard", "luxury"):
        return {
            "success": False,
            "error_code": "INVALID_BUDGET",
            "error": "budget_level 必须是 economy/standard/luxury 之一",
        }

    daily_budget_map = {
        "economy": 500,
        "standard": 1000,
        "luxury": 2500,
    }
    total_budget = daily_budget_map[budget_level] * days

    outline = [
        {
            "day": i + 1,
            "title": f"第 {i+1} 天：城市探索 & 美食",
            "notes": "白天城市地标 + 晚上当地特色餐厅（示例）",
        }
        for i in range(days)
    ]

    return {
        "success": True,
        "destination": destination,
        "start_date": start.strftime("%Y-%m-%d"),
        "days": days,
        "budget_level": budget_level,
        "estimated_total_budget_cny": total_budget,
        "interests": interests,
        "outline": outline,
    }

# ================== 3. tools 定义（Function Calling 标准 JSON Schema） ==================

TRIP_TOOL = [
    {
        "type": "function",
        "function": {
            "name": "plan_trip",
            "description": (
                "根据目的地、出行日期、天数和预算，生成一个结构化旅行计划。"
                "当用户提供旅游海报/行程截图/目的地描述时，应基于图像和文字综合理解后调用本函数，"
                "禁止跳过工具直接编行程。"
            ),
            "parameters": {
                "type": "object",
                "properties": {
                    "destination": {
                        "type": "string",
                        "description": "城市或地区，例如：新加坡、东京、巴黎、成都。可以从宣传海报或截图中识别。"
                    },
                    "start_date": {
                        "type": "string",
                        "description": "出发日期，ISO 格式，如 2025-12-20。若海报未写具体日期，可让用户补充。"
                    },
                    "days": {
                        "type": "integer",
                        "description": "旅行天数（1~30）。可从海报/行程截图推断，例如“新加坡3日游”。",
                        "minimum": 1,
                        "maximum": 30
                    },
                    "budget_level": {
                        "type": "string",
                        "enum": ["economy", "standard", "luxury"],
                        "description": "预算档位：economy / standard / luxury。可根据用户文字补充来判断。"
                    },
                    "interests": {
                        "type": "array",
                        "description": "兴趣偏好，如美食、博物馆、夜生活、沙滩、购物等，可从图像和文字中综合推断。",
                        "items": {"type": "string"},
                    },
                },
                "required": ["destination", "start_date", "days", "budget_level"],
            },
        },
    }
]

# ================== 4. 工具执行路由 ==================

def execute_trip_tool(name: str, arguments: Dict[str, Any]) -> Dict[str, Any]:
    if name == "plan_trip":
        return plan_trip(**arguments)
    return {
        "success": False,
        "error_code": "UNKNOWN_TOOL",
        "error": f"unknown tool: {name}",
    }

# ================== 5. 多模态 + Function Calling 主流程（使用本地图片） ==================

def ask_glm46v_with_local_image_for_trip_plan(image_path: str, user_instruction: str) -> str:
    """
    image_path: Colab 本地图片路径，例如 /content/test.jpg
    user_instruction: 搭配图片的文字指令，例如：
        "根据这张新加坡3日精华游行程图，帮我规划一个实际可执行的 3 天行程。"
    """
    data_uri = encode_image_to_data_uri(image_path)

    messages: List[Dict[str, Any]] = [
        {
            "role": "system",
            "content": "你是一个多模态旅行规划 Agent，能够看懂旅游海报/行程截图，并通过调用 plan_trip 工具生成结构化行程。",
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": data_uri},  # ✅ 按官方要求传 data:image/...;base64,...
                },
                {
                    "type": "text",
                    "text": (
                        user_instruction
                        + " 请先仔细观察图片中的目的地、天数、玩法主题等信息，"
                        + "再决定 plan_trip 的参数。不要直接编造参数。"
                    ),
                },
            ],
        },
    ]

    # -------- [Step 0] 打印发送给模型的请求（脱敏后的） --------
    print("\n[Step 0] 发送给模型的 messages（已隐藏 base64 具体内容）：")
    safe_print_messages_for_log(messages)

    print("\n[Step 0] 发送给模型的 tools (TRIP_TOOL)：")
    print(json.dumps(TRIP_TOOL, ensure_ascii=False, indent=2))

    # -------- [Step 1] 第一次调用：多模态理解 + 是否调用工具 --------
    resp = client.chat.completions.create(
        model="glm-4.6v",
        messages=messages,
        tools=TRIP_TOOL,
        tool_choice="auto",
    )

    message = resp.choices[0].message
    message_dict = message.model_dump()

    print("\n[Step 1] 第一轮模型输出 message（含 tool_calls 的完整结构）：")
    print(json.dumps(message_dict, ensure_ascii=False, indent=2))

    messages.append(message_dict)

    if not message.tool_calls:
        print("\n[Step 1.1] 本轮没有 tool_calls，模型直接给出回答（只用图像+文本推理，无工具）。")
        return message.content

    # -------- [Step 2] 执行每一个 tool_call --------
    for idx, tool_call in enumerate(message.tool_calls):
        fn_name = tool_call.function.name
        raw_args = tool_call.function.arguments or "{}"
        args = json.loads(raw_args)

        print(f"\n[Step 2] 第 {idx+1} 个 tool_call：")
        print(f"[Step 2] 函数名: {fn_name}")
        print(f"[Step 2] 原始 arguments 字符串: {raw_args}")
        print("[Step 2] 解析后的 arguments dict:")
        print(json.dumps(args, ensure_ascii=False, indent=2))

        result = execute_trip_tool(fn_name, args)

        print("[Step 2] 本地函数执行结果 (tool result)：")
        print(json.dumps(result, ensure_ascii=False, indent=2))

        tool_message = {
            "role": "tool",
            "tool_call_id": tool_call.id,
            "content": json.dumps(result, ensure_ascii=False),
        }
        messages.append(tool_message)

        print("\n[Step 2] 追加到 messages 的 tool 消息：")
        print(json.dumps(tool_message, ensure_ascii=False, indent=2))

    # -------- [Step 3] 打印带 tool 结果的 messages（同样做脱敏） --------
    print("\n[Step 3] 携带 tool 结果后，准备发送给模型的完整 messages（已隐藏 base64）：")
    safe_print_messages_for_log(messages)

    # -------- [Step 4] 第二次调用：基于工具结果生成最终回答 --------
    final = client.chat.completions.create(
        model="glm-4.6v",
        messages=messages,
        tools=TRIP_TOOL,
    )

    final_message = final.choices[0].message
    final_message_dict = final_message.model_dump()

    print("\n[Step 4] 第二轮模型输出 message（最终回答 + 内部结构）：")
    print(json.dumps(final_message_dict, ensure_ascii=False, indent=2))

    print("\n[Step 4] 最终返回给用户的 content：")
    print(final_message.content)

    return final_message.content

# ================== 6. 实测调用（使用 /content/test.jpg） ==================

if __name__ == "__main__":
    # 先确保你已经把那张“新加坡3日精华游行程图”上传为 /content/test.jpg
    IMAGE_PATH = "/content/test.jpg"

    USER_INSTRUCTION = "根据这张新加坡3日精华游行程图，帮我规划一个2025年12月20日实际可执行的 3 天行程。"

    print("\n================ 开始调用 ask_glm46v_with_local_image_for_trip_plan ================\n")
    answer = ask_glm46v_with_local_image_for_trip_plan(IMAGE_PATH, USER_INSTRUCTION)

    print("\n================ 函数返回值（给前端 / 用户的文本） ================\n")
    print(answer)

🚀超越Qwen3？Ministral 3 14B模型支持256k上下文窗口！本地部署+深度实测！视觉能力太离谱了！Function Calling能力倍增！FP8 精度 + vLLM 推理速度快到飞起

2025-12-03T00:00:00+08:00

最近 AI 圈又有大动作。

Mistral AI 悄悄发布了全新的 Mistral 3 系列模型，除了旗舰版 Mistral Large 3，还带来了一个让我眼前一亮的”小弟”——Ministral 3 系列。

这个系列有 14B、8B、3B 三个版本，参数量不大，但能力却相当炸裂。

我花了一整天时间，把 Ministral 3 14B 这款模型从头到尾测了个遍。说实话，测完之后我有点懵：这真的只是一个 14B 的模型吗？

先说最让我震惊的一点：256K 的上下文窗口

你没看错，256K tokens。

这是什么概念？拿同级别的 Qwen 3 来对比，它的原生上下文窗口是 32K，扩展后也才 131K。而 Ministral 3 直接给你拉满到 256K，整整 8 倍的差距。

这意味着什么？意味着你可以一次性喂给它一整本书，或者几十轮的长对话历史，它都能稳稳接住。对于做知识库、长文档问答的场景来说，这简直是刚需。

而且这款模型还是 FP8 精度的，显存占用比同参数的模型更小，推理速度也更快。我用 vLLM 部署，一张 RTX A6000 就跑起来了，体验相当丝滑。

多模态能力：复杂图像也能精准理解

没错，Ministral 3 14B 是一款多模态模型，支持图像输入。

我专门找了一张”魔改版清明上河图”来测试。这张图乍一看是古画风格，但仔细看会发现里面藏了一些现代元素——比如一辆自行车、一艘摩托艇，甚至还有一只恐龙和一条鳄鱼。

我问它：图中的自行车和摩托艇在什么位置？

它的回答是：自行车位于左下角，靠近岸边；摩托艇位于左上角，在水面上，远离岸边的建筑和人群。

完全正确。

然后我加大难度，问它那只”怪兽”在哪里。它说：看起来像恐龙，位于图的右下角附近。还补了一句：这可能是为了展示一种奇幻或历史虚构的场景。

我继续追问：所以这幅画是古人画的吗？

它的回答让我有点惊喜。它说：这幅画并非完全由古人所绘，因为恐龙是现代科学概念，古人不了解恐龙的存在，这明显是现代创作的加入。

逻辑清晰，判断准确。

最后我让它找那条只露出上半身的鳄鱼，它也精准定位到了右侧中下方、几只小船附近的水域。一个 14B 的模型能有这样的视觉理解能力，确实超出我的预期。

OCR 能力：模糊扫描件也能搞定

接下来测试 OCR。

我先用了一张结构比较复杂的手写体图片，让它提取内容并保持原有格式。结果它不仅把内容都提取出来了，还自动用 Markdown 格式输出，标题、正文层次分明。

然后我故意找了一张非常模糊的扫描件，里面有中文段落、英文标题、表格，甚至还有一段代码。

它全都提取出来了。

表格结构保持得很好，代码还自动放进了代码块里。说实话，这个 OCR 效果放在一些专业工具里都不一定能做到这么干净。

当然，也有翻车的时候。我让它识别一张时钟图片上显示的时间，实际是 10 点整，它识别成了 3 点 15 分。看来时钟识别对这类模型来说还是个老大难问题。

幻觉测试：不知道的事情，它真的不会瞎编

现在很多模型最大的问题就是”一本正经地胡说八道”。所以我专门设计了三道陷阱题来测试。

第一题：我虚构了一个根本不存在的历史事件，问它相关细节。它直接回答说：这个事件可能存在误解，在文献中并没有相关记载。

第二题：我故意把一首诗的作者张冠李戴，问它是不是李白写的。它明确指出：这个作品并非李白所作。

第三题：我编了一个不存在的化学物质名称。它没有顺着我瞎编，而是说：您提到的这个物质可能是指某某（一个真实存在的类似物质）。

三道题全部识破，没有产生幻觉。这一点让我对它的可靠性印象加分不少。

文档问答：长论文精准定位信息

我用一篇很长的学术论文来测试它的文档问答能力，问了三个比较刁钻的技术问题：模型有多少个 Transformer 层、隐藏状态大小是多少、有多少个查询头和键值头。

它的回答：32 个 Transformer 层，隐藏状态大小 3072，24 个查询头，8 个键值头。

全部正确。

对于需要从海量文档中快速提取关键信息的场景，这个能力非常实用。

Function Calling：智能客服系统实战

为了测试它的工具调用能力，我搭建了一个进销存智能客服系统，定义了查询库存、记录入库出库、获取库存预警、销售统计、商品搜索等多个函数。

测试下来，它能准确理解用户意图，正确调用对应的函数，返回结果也很清晰。甚至还会主动给出库存健康分析和操作建议。

这种能力对于构建企业级智能客服、自动化工作流来说，价值非常大。

AutoGen 多智能体：协作效果出乎意料

最后我把它接入了微软的 AutoGen 框架，搭建了一个多智能体旅行规划系统。四个智能体分别扮演旅行规划师、本地向导、语言文化顾问和总结专家。

给它一个任务：规划 3 天的尼泊尔旅行。

四个智能体轮流发言，规划师给出详细的每日行程，向导补充当地特色景点和美食，语言顾问提供实用短语和文化禁忌，最后总结专家整合成完整方案。

整个过程流畅自然，输出的内容详细到让我怀疑它是不是真的去过尼泊尔。

写在最后

综合测试下来，Ministral 3 14B 这款模型给我的感觉就是：小身材，大能量。

256K 超长上下文、多模态图像理解、靠谱的 OCR、几乎不产生幻觉、强大的工具调用能力，再加上对中文的良好支持和 FP8 低显存占用——这些特性组合在一起，让它成为本地部署、私有化场景的绝佳选择。

如果你正在寻找一款性价比高、能力全面的开源模型，不妨试试这个”小钢炮”。

🚀Opus 4.5+Claude for Chrome彻底改写浏览器自动化！效果碾压ChatGPT Atlas，一个插件取代整个浏览器！让AI自动操作网页、填表格、生成图像，效率倍增！

2025-11-25T10:00:00+08:00

Anthropic在11月25日正式发布了Claude Opus 4.5模型，同时推出了Claude for Chrome浏览器扩展插件。这款插件此前处于小范围测试阶段，现已向所有Max用户开放。与OpenAI选择开发独立的Atlas浏览器不同，Anthropic走了另一条路——直接为现有的Chrome浏览器提供扩展插件。

这篇文章将结合官方信息和实际测试，聊聊这款插件的真实表现。

先说说Opus 4.5这款模型

根据Anthropic官方公布的信息，Opus 4.5拥有200K的上下文窗口，在执行相同任务时比此前的模型节省约76%的Token消耗。定价方面，输入为每百万Token 5美元，输出为每百万Token 25美元，相比上一代Opus 4.1的15美元和75美元有了明显下降。

在编码能力的评测中，Opus 4.5在SWE-bench Verified基准测试上达到了80.9%的准确率，这是目前首个突破80%的模型。作为对比，OpenAI的GPT-5.1-Codex-Max为77.9%，Google的Gemini 3 Pro为76.2%。

知识库截止日期是2025年5月底，这在目前的主流模型中算是比较新的。

Chrome插件长什么样

安装完成后，点击Chrome工具栏的图标就能唤出侧边栏。界面设计比较简洁，顶部可以切换模型（支持Opus 4.5、Sonnet 4.5和Haiku 4.5），中间是对话区域，底部是输入框。

输入框旁边有两个选项：一个是执行任务前先询问用户确认，另一个是全自动执行。如果选择全自动模式，Claude会在不打扰你的情况下完成整个操作流程。

此外，插件还支持截图和上传图像功能，方便处理视觉相关的任务。

实际测试：基础功能

网页总结：在Anthropic官方的Opus 4.5介绍页面测试总结功能，插件能够快速提取文章的核心亮点，包括定价、性能提升、技术评估等方面的信息，整体表现比较准确。

图像识别：让插件解读网页上的一张性能对比柱状图，它准确识别出了图表类型、各个模型的排名数据，并给出了简要分析。这说明插件能够直接获取并理解当前网页上的图像内容。

选中文本翻译：用鼠标选中一段英文内容后，让插件翻译成中文。它通过截图的方式捕获了选中的内容，并完成了翻译。这个功能在日常浏览英文网站时会比较实用。

实际测试：浏览器自动化

这部分是Claude for Chrome的核心卖点。

自动发帖：测试让插件改写一篇文章并发布到X平台。它首先生成了改写后的内容并询问是否发布，确认后自动打开X，定位到输入框，输入内容和标签，最后自动点击发布按钮完成整个流程。整个过程比较流畅，操作速度也还可以。

跨平台AI对话：这是个比较有意思的测试——让Claude通过插件操控浏览器，与ChatGPT进行多轮对话。测试中设定的话题是关于载人飞往半人马座阿尔法星的可能性。插件成功打开ChatGPT，输入问题，等待回答后继续追问，前后进行了三轮对话，最后还给出了讨论总结。某种程度上，这模拟了一个多Agent协作的场景。

自动下棋：在国际象棋网站上测试全自动对弈。插件能够正确识别棋盘，选择棋子并移动到合适的位置。从测试效果来看，棋子选择和移动的准确性都比较高。

操作Google AI Studio：让插件打开Google AI Studio，自主构思并开发一个小游戏。它输入了一个记忆配对卡片游戏的提示词，等AI Studio生成代码后还尝试进行交互测试。不过这个测试中遇到了问题——生成的游戏出现了内存泄露，导致电脑温度飙升，不得不中止。

跨标签页数据抓取：让插件搜索特斯拉股票信息，提取特定字段后填入Google表格。插件新开标签页进行搜索，进入Google Finance获取数据，然后切换到表格标签页完成填写。整个过程中它能够在多个Tab页之间协调操作。不过有个小问题，日期被错误地写成了2024年而非2025年。

操作Gemini生图：让插件打开Gemini，选择图像生成模型，输入提示词生成一张素描风格的猫咪图片，然后对生成结果进行评价。插件完成了整个流程，还主动点击图像进行放大查看，最后给出了详细的评分和分析。

一些观察

从测试来看，Claude for Chrome在浏览器自动化方面确实具备了相当的能力。它能够处理网页内容、操作表单、在多个标签页之间切换、与不同的网页应用交互。

相比需要单独安装的Atlas浏览器，Chrome插件的形式对用户来说更加便捷——不需要离开熟悉的浏览器环境，也不用重新适应新的操作习惯。

当然，测试中也暴露了一些问题：日期识别出错、操作AI Studio时遇到生成内容的bug等。这些情况提醒我们，目前的浏览器自动化技术还不能做到完全可靠，在涉及重要操作时仍然需要人工确认和监督。

总的来说，Claude for Chrome为日常的网页浏览和简单的自动化任务提供了一个不错的选择。至于它是否能完全取代其他方案，可能还需要更多场景的验证。

🚀Nano Banana Pro全能实测！强得离谱！生成中文书法、换装、PS修图样样精通，连X光片骨折都能精准标注，这才是真正的全能图像AI！一个模型搞定所有图像需求，效果逆天到难辨真假！

2025-11-21T00:00:00+08:00

今天凌晨，谷歌在毫无预兆的情况下，突然发布了全新的图像生成旗舰模型——Nano Banana Pro。

在官方博客的技术白皮书中，谷歌赋予了这款模型极其强悍的纸面参数：它引入了“工作室级创意控制（Studio-grade creative control）”架构，支持混合多达14张参考图像，并能同时保持画面中多达5个人物的高度一致性。此外，它打破了常规生成的限制，原生支持从16:9到21:9、乃至4K分辨率的超清输出，并赋予用户对局部编辑、相机角度、色彩分级（Color Grading）和场景照明的精细控制权。

参数再豪华，终究要落地到实际应用。为了验证 Nano Banana Pro 是否真的如宣传般强大，我们耗时一上午，设计了覆盖图像生成、电商应用、逻辑推理、医学影像、创意设计等领域的20组地狱级测试案例。

实测结果表明，这不仅仅是一个画图工具的升级，更像是AI对物理世界理解能力的一次跃迁。以下是我们的详细万字评测报告。

一、突破“恐怖谷”：极致的微观细节与文本渲染

长期以来，AI绘图模型在处理文字（Text Rendering）和微观物理细节时，往往会暴露出“由于计算生成”而产生的违和感。但 Nano Banana Pro 在这方面的表现，让我们重新审视了“逼真”的定义。

1. 指纹级的真实感：马斯克推文实拍 在第一组测试中，我们要求模型生成一张“马斯克在手机上发推文夸赞特斯拉自动驾驶，并获得OpenAI及Google官方回复”的照片。结果令人咋舌。模型生成的不仅是一张截图，而是一张“对着手机屏幕拍摄的照片”。当我们把图片放大到像素级时，震惊地发现了屏幕玻璃上残留的指纹印记。此外，手机顶部状态栏的电池电量、信号格强弱，以及屏幕光线在不同角度下的漫反射效果，都完全符合物理规律。如果不是因为推文内容是我们编造的，这张图在社交网络上足以以假乱真。

2. 中文书法的笔触还原 汉字生成一直是西方大模型的弱项。我们测试了生成一幅《念奴娇·赤壁怀古》的行楷书法作品。生成的画面中，宣纸的纤维质感、墨汁的浓淡晕染（Dry and Wet ink effects）、毛笔搁置在砚台上的光影投射，都达到了摄影级别。尽管在长文本的逻辑上，模型没有完全一字不差地复写上阙内容（这是目前大语言模型的通病），但在“字形结构”上，每一个汉字都笔法严谨，完全没有出现“鬼画符”般的伪造字，对于国风设计素材的生成而言，这已是极高可用的生产力。

3. 零错误的巧克力艺术字 在生日蛋糕的测试中，模型面临着材质与文字的双重挑战。我们需要它用巧克力酱在奶油蛋糕上写出“AI超元域频道3岁啦”。生成的图像中，巧克力字迹呈现出流体凝固后的自然光泽，且每一个字符都清晰可辨，没有任何错别字。这意味着模型已经理解了“液体书写”的物理特性。

二、电商与摄影的革命：一致性与局部重绘

对于电商行业而言，AI最大的痛点在于“不可控”。而 Nano Banana Pro 此次主打的“局部编辑”与“一致性保持”，似乎正是为了解决这一商业痛点而来。

1. 完美的模特“云换装” 这是本次评测中商业价值最高的一组测试。我们上传了一张模特图和一套衣服图，要求模型“给图二的模特穿上图一的衣服”。 Nano Banana Pro 的表现堪称完美。它不仅完成了换装，更重要的是，它锁死了模特的面部特征、身材比例和站姿。在随后的多轮对话中，我们像对待真人模特一样不断提出修改要求：

“把低领内搭换成高领”——完成，且颈部光影自然过渡。
“把短裙换成长裤”——完成，裤子的褶皱符合重力垂坠感。
“给她戴上一顶帽子”——完成，帽子的阴影精准投射在脸部。
“加上一条腰带”——完成，腰带束紧了衣物，产生了真实的挤压褶皱。甚至原图中没有拍到模特的脚，模型也自动根据身体姿态补全了鞋子。对于电商卖家来说，这意味着只需拍摄一次模特，即可无限生成不同款式的上身图，成本将呈指数级下降。

2. 智能修图与发型设计 除了换装，我们还测试了“去路人”和“换发型”。在旅游照中，一句“去掉路人”的提示词，模型瞬间清除了背景杂乱的游客，并自动脑补了被遮挡的风景，毫无修图痕迹。在人物写真中，我们将一位男性的发型替换为“更时尚的款式”，整个人气质瞬间提升，且发丝与头皮的连接处处理得极其自然。这预示着它完全可以替代Photoshop的大部分繁琐功能。

三、视觉推理：AI 开始“看懂”这个世界

Nano Banana Pro 不仅仅在“画”，它似乎在“思考”。多组测试证明，它具备了极强的多模态视觉推理能力。

1. 逆向工程：一张图反推食谱 我们投喂了一张“土豆烧牛肉”的成品菜照片，要求模型“生成这道菜的所有食材”。模型生成的图像不仅是一堆食材的堆砌，更像是一张精美的备菜图：牛肉切块的纹理、土豆的氧化色泽、葱花、姜片、甚至生抽、老抽、冰糖、八角等看不见的调味品，都被它逻辑严密地具象化了出来。这说明模型识别出了菜品，检索了知识库，并将其反向视觉化。

2. 医学影像的精准判读 为了测试专业性，我们上传了一张包含微小骨折点的X光片，提示词仅为“标注骨折位置”。模型精准地识别出了病灶，并用红框进行了高亮标注。值得注意的是，生成后的图像依然保持了X光胶片特有的灰度噪点和透视质感，没有因为AI的介入而变成“卡通画”。这展示了其在辅助医疗诊断领域的潜力。

3. 逻辑思维的可视化：数学与试卷 这可能是最让我们感到“细思极恐”的测试。

数学解题： 我们要求模型解答一道圆面积计算题，并展现“草稿纸上的手写过程”。模型不仅步骤正确、答案无误，更可怕的是它模拟了真实的“运算场景”——字迹是手写的圆珠笔质感，纸张上有上一页笔记透过来的印痕，甚至还有手腕摩擦留下的污渍。
试卷填空： 给定一张空白英语试卷，模型自动识别题目，在括号内填入了正确的选项字母，并在下方用中文手写体翻译了句子。这不仅是OCR（文字识别），而是“识别+理解+生成”的全流程闭环。
手绘RAG流程图： 它还能根据抽象的技术概念（检索增强生成），绘制出逻辑清晰、带有中文注释的手绘风格流程图。

四、创意的边界：从复刻到脑洞

最后，我们测试了模型的艺术创造力与跨风格融合能力。

1. 时空错乱的艺术融合 当我们将现代工业产物强行植入古代艺术时，Nano Banana Pro 展现了极高的审美融合度。

清明上河图+游艇： 我们要求在仿古画的河面上放一艘现代钓鱼艇。模型不仅放入了游艇，还精细地绘制了游艇马达激起的白色浪花，这种浪花的画法模仿了古画的笔触，使得违和感降到了最低。
古画改图： 将古画中垂钓的人改为“中鱼拉杆”的状态。模型重绘了弯曲的鱼竿和水下的鱼，动态张力十足。

2. 风格迁移与设计赋能

室内设计： 一张简陋的毛坯房照片，在提示词“现代简约风”的驱动下，瞬间变成了精装修效果图。光影方向与原图窗户完全一致，地砖的镜面反射更是点睛之笔。
素描转油画： 将人物素描一键转为油画，衣服上的格子纹理细节毫发无损。
手办生成： 将真人模特图转化为带包装盒、亚克力底座的精美手办图，材质反光逼真。
杂志封面： 根据我们的频道介绍，自动生成了一张极具设计感的时尚杂志封面，桌上的咖啡杯倒影清晰可见。
脑洞流程图： 在“如何烤面包”的趣味测试中，模型画出了喷火龙烤面包、投石机送面包的夸张场景，证明了它在幽默感和想象力上的可塑性。

五、总结与展望

洋洋洒洒20组测试，涵盖了从微观细节到宏观场景，From “What is” to “What if” 的各个维度。

Nano Banana Pro 给我们最大的感受是：它变“聪明”了。

以前的AI绘图模型，像是一个画技高超但不懂物理规律的“画师”，经常画出反重力的衣服或错误的光影。而 Nano Banana Pro 给人的感觉，是它在生成图像之前，先在潜空间里构建了一个符合逻辑的“虚拟世界”。它知道手写字会有压痕，知道屏幕会有指纹，知道衣服会有重力褶皱，知道X光片背后的病理结构。

对于用户而言，这意味着：

设计门槛的进一步降低： 你不需要再用复杂的ControlNet去控制光影，简单的自然语言即可实现精准修改。
商业应用的爆发： 电商换装、室内设计、辅助教育、医疗标注，这些领域的生产力将迎来质的飞跃。
创意的无限延伸： 无论是搞怪的烤面包流程图，还是严肃的数学推导，它都能成为你大脑的外挂。

谷歌 Nano Banana Pro 的发布，标志着图像生成模型正式进入了“通感”时代。它不再仅仅是像素的堆砌，而是逻辑与物理的投射。

关于这款模型的更多玩法和提示词技巧，我们将在后续的推文中继续更新。AI进化的速度比我们想象的更快，你准备好了吗？

本文测试内容均基于真实视频演示素材，技术参数参考官方发布信息。保持客观，拒绝捧杀。

记得点赞、在看、转发，关注我，不错过每一次AI技术的变革！

🚀开发者必看！深度测评谷歌Gemini 3 Pro + Antigravity IDE！对比Claude Sonnet 4.5前端编程巅峰对决！模型能力是否被高估了？

2025-11-19T00:00:00+08:00

2025年11月18日凌晨，Google 正式发布了最新一代人工智能模型 Gemini 3 Pro，同时推出了对标 Cursor 和 Windsurf 的代理式开发平台 Antigravity IDE。作为 AI 编程领域的重磅更新，这次发布引发了开发者社区的热烈讨论。本文将结合官方数据与实际测试，为大家带来一份客观、全面的使用体验报告。

一、基准测试：纸面数据的辉煌战绩

令人瞩目的基准测试成绩

从官方公布的数据来看，Gemini 3 Pro 在多项基准测试中的表现确实令人印象深刻，甚至在某些项目上超越了 Claude Sonnet 4.5 和 GPT-5.1。

在业界最受关注的 LMArena 排行榜上，Gemini 3 Pro 以 1501 Elo 的分数登顶，超越了此前占据榜首的 Grok 4.1 Thinking。在推理能力方面，它在”人类最后考试”（Humanity’s Last Exam）中取得了 37.5% 的得分（不使用工具），在 GPQA Diamond 专业科学知识测试中达到 91.9% 的成绩。

数学能力的提升尤为显著。在 MathArena Apex 这项极具挑战性的数学竞赛测试中，Gemini 3 Pro 取得了 23.4% 的成绩，而竞争对手的得分大多在 1-3% 之间，这个差距相当惊人。

在编程基准测试中，Gemini 3 Pro 在 WebDev Arena 获得 1487 Elo 分，在 Terminal-Bench 2.0 上达到 54.2%，在 SWE-bench Verified 上取得 76.2% 的得分。这些数字看起来都非常亮眼。

然而，基准测试毕竟只是纸面数据。真实的编程能力如何？我们需要通过实际测试来验证。

二、实战测试：前端编程能力的真实较量

为了客观评估 Gemini 3 Pro 的实际编程能力，我们在 Google AI Studio 中进行了一系列前端编程测试，并与 Claude Sonnet 4.5 进行了对比。测试涵盖了 SVG 绘图、动画制作、游戏开发等多个场景。

测试一：SVG 绘制 MacBook Pro 键盘

测试要求：用 SVG 画出 MacBook Pro 的键盘布局，要求 100% 还原真实键盘样式。

Gemini 3 Pro 表现：整体还原度相当高，字母、图标、键盘大小和布局都非常接近真实的 MacBook Pro 键盘。但存在明显缺陷——数字键那一排的数字位置靠下，甚至超出了按键区域，出现了元素错位。

Claude Sonnet 4.5 表现：完成度更好，键盘之间的空隙清晰可见，数字键位置准确，功能键（亮度调节、音量调节等）还原精准，没有任何元素错位的情况。

结论：这一轮 Claude Sonnet 4.5 完成得更好。

测试二：太阳系八大行星公转动画

测试要求：用 SVG 画出太阳系八大行星围绕太阳公转的动画，采用 3D 效果，百分百还原。

两者表现：双方都完成得非常出色。运行轨道清晰，土星的星环细节到位，木星的光影效果逼真。放大后还能看到月亮围绕地球旋转的细节。

结论：这一轮两者不分伯仲。

测试三：猫狗行走动画

测试要求：用 SVG 画一猫一狗在草地上一前一后地走，天空中有飘动的云和飞翔的鸟。

Claude Sonnet 4.5 表现：猫和狗的特征明显可辨，动物走到边缘会自动返回，鸟的飞行轨迹自然。

Gemini 3 Pro 表现：基本功能都实现了，但画出的狗看起来不太像狗。有趣的是，它生成的鸟的运动效果和 Claude Sonnet 4.5 生成的非常相似，这背后的原因值得探讨。

结论：两者完成度都不错，但 Claude 在细节还原上略胜一筹。

测试四：3D 恐龙狩猎游戏（重头戏）

测试要求：创建一个 3D 风格的恐龙狩猎游戏，玩家控制一辆车在侏罗纪时代追逐恐龙并进行射击。

Claude Sonnet 4.5 表现：实现了第一人称视角，射击和音效都不错，可以消灭恐龙。但恐龙的建模相对简单。

Gemini 3 Pro 表现：这一轮表现令人惊喜！不仅实现了第一人称视角，还加入了开始按钮、皮卡车模型、远处雾蒙蒙的氛围效果。最重要的是，恐龙的建模明显比 Claude 版本更加逼真，击中时的血量系统也更完善，整体游戏性更强。

结论：这一轮 Gemini 3 Pro 明显胜出，在复杂 3D 游戏开发上展现了更强的能力。

测试五：p5.js 自动寻路贪吃蛇

测试要求：用 p5.js 实现自动寻路版贪吃蛇，能够自动规划路径、躲避障碍、寻找食物。

两者表现：双方都成功实现了自动寻路、躲避障碍、自动吃食物并变长等核心功能。不同之处在于，Claude Sonnet 4.5 的背景色和主题设计更加美观，用户界面更加精致。

结论：功能实现上两者相当，UI 设计上 Claude 更胜一筹。

测试六：简化版 Minecraft 游戏

测试要求：使用 HTML5 + Three.js 复刻一个简化版的 Minecraft 游戏。

Claude Sonnet 4.5 表现：实现了第一人称视角、鼠标视角切换、空格跳跃、方向键移动。最重要的是，鼠标点击可以挖掘方块，能挖出洞来，甚至能把地面”挖穿”看到下面的天空。方向键可以选择不同材料（石头、泥土等）。核心游戏机制完整。

Gemini 3 Pro 表现：初始化后角色处于悬浮状态，跳跃时始终在空中漂浮，无法正常落地。点击方块没有任何反应，挖掘功能完全未实现。

结论：Claude Sonnet 4.5 完成度远超 Gemini 3 Pro。

前端测试总结

通过这六个具有代表性的前端编程测试，我们可以得出一个重要结论：尽管 Gemini 3 Pro 在基准测试中表现出色，但在实际前端编程能力上，它与 Claude Sonnet 4.5 的差距并不明显，两者各有胜负。

Gemini 3 Pro 在某些复杂场景（如 3D 恐龙游戏）中展现了出色的能力，但在另一些场景（如 Minecraft 游戏）中又出现了明显的问题。Claude Sonnet 4.5 则表现得更加稳定均衡，在 UI 设计和细节处理上往往更胜一筹。

三、Antigravity IDE：真实体验与功能探索

初印象：熟悉的界面，不一样的能力

Antigravity IDE 支持 macOS、Windows 和 Linux 三大平台，下载安装后使用 Google 账号登录即可使用。第一眼看到界面时，熟悉的感觉扑面而来——这确实是一个基于 VS Code 的 IDE，界面布局与 Cursor 和 Windsurf 非常相似，这意味着上手难度几乎为零。

但 Antigravity 的独特之处在于其”代理优先”的设计理念。它不仅仅是一个代码编辑器，更是一个可以管理和协调多个 AI 代理的开发平台。

令人惊喜的发现：免费使用 Claude Sonnet 4.5

打开 Antigravity 后，最令人惊喜的发现是：它不仅支持 Gemini 3 Pro，还支持 Claude Sonnet 4.5，而且可以免费使用！

这意味着即使你没有 Claude 的订阅，也能在 Antigravity 中免费体验 Claude Sonnet 4.5 的强大编程能力。这对于开发者来说是一个巨大的福利，也体现了 Google 的开放态度。

除了模型选择，Antigravity 还提供了两种工作模式：

Planning 模式：AI 先根据需求生成详细的任务规划，开发者审核后再执行
Fast 模式：直接快速响应和执行任务

实战测试一：开源项目分析

我们首先测试了 Antigravity 的项目分析能力。通过克隆一个 GitHub 仓库，然后让它”详细分析这个项目，并生成分析报告以及函数地图”。

测试配置：

模型：Gemini 3 Pro
模式：Fast（因为只是分析，不需要 Planning）
操作：克隆仓库 → 输入中文提示词 → 等待分析

分析过程：可以实时看到 Antigravity 读取项目文件的过程，整个分析速度较快。

分析结果：

✅ 生成了完整的项目分析报告
✅ 识别了技术栈和关键特性
✅ 提供了架构分析和核心组件分析
⚠️ 函数地图的可视化效果一般
⚠️ 输入中文提示词，但输出为英文

这个功能对于快速了解陌生项目的架构很有帮助，但语言处理的一致性还需要改进。

实战测试二：全栈背单词应用开发（重头戏）

接下来是最具挑战性的测试——让 Antigravity 从零开始构建一个全栈应用。

项目需求：

前端：React + Chakra UI
后端：Node.js + Express + Supabase
数据库：Supabase PostgreSQL
功能：单词学习、练习、测试、进度追踪、底部导航等

开发全过程记录：

第一阶段：规划（Planning 模式）

选择 Gemini 3 Pro + Planning 模式
输入详细的需求和技术栈描述
AI 生成了详细的任务规划，包括：
- 数据库表结构设计
- 前端组件架构
- 后端 API 设计
- 实施步骤
可以通过对话方式修改规划，满意后点击执行

第二阶段：执行与问题（约 10 分钟）

✅ 首先生成 SQL 文件（手动复制到 Supabase 执行，成功）
✅ 开始生成前后端代码
✅ 可以实时查看正在执行的命令
❌ 后端启动时出现报错
✅ 选中报错 → 点击 Chat → 发送，AI 自动修复
❌ 前端页面空白，检查发现错误
❌ 经过多轮修复，问题依然存在
⚠️ 关键问题出现：Gemini 3 Pro 配额用完！

第三阶段：切换模型的转机

系统提示选择其他模型
切换到 Claude Sonnet 4.5（免费！）
输入”继续”让它继续修复

第四阶段：自动化测试的惊喜

🎉 Claude Sonnet 4.5 自动调用浏览器
🎉 开始自动化 UI 测试：
- 自动点击单词卡片
- 自动测试练习功能
- 自动点击设置页面
- 对每个操作进行分析和验证
这个自动化测试功能是 Cursor 和 Windsurf 都不具备的！

最终成果评估：

✅ 成功实现的功能：

单词卡片展示
点击查看解释
练习功能
进度追踪
设置页面
底部导航

❌ 存在的不足：

单词解释只有英文，没有中文
缺少发音按钮（同样提示词，其他 AI 都实现了）
整体功能比较简单
缺少一些细节优化

⚠️ 重要发现：

因为中途从 Gemini 3 切换到 Claude 4.5，代码风格和实现方式不统一
最后生成的项目总结使用中文（因为 Claude 接手了）

Antigravity 的独特优势总结

通过这两个实战测试，我们发现 Antigravity 有几个独特的亮点：

🌟 自动化浏览器测试：这是杀手级功能！能够自动调用浏览器对 Web 应用进行 UI 测试，这是 Cursor 和 Windsurf 目前都不具备的。
🌟 多模型免费使用：可以免费使用 Claude Sonnet 4.5，这个价值巨大。还支持 GPT-OSS 等其他模型。
✅ Planning 模式：先规划后执行，增加了可控性和透明度。
✅ 工件系统：通过任务列表、截图、录制等方式展示工作过程。
✅ VS Code 生态：基于 VS Code，学习成本低，可以导入现有设置。

Antigravity 存在的问题

⚠️ Gemini 3 Pro 配额限制严格：一个中等复杂度的项目还没完成，配额就用完了。
⚠️ 语言一致性问题：中文提示词却返回英文内容。
⚠️ 早期产品稳定性：作为刚发布的产品，还需要时间打磨。
⚠️ 代码质量受模型切换影响：中途切换模型会导致代码风格不统一。

四、综合评估：理性看待新技术

基准测试 vs 实际能力：差距依然存在

通过全面的测试，我们发现了一个重要的事实：基准测试的亮眼数据并不能完全转化为实际编程能力的绝对优势。

Gemini 3 Pro 在数学、推理等基准测试中确实取得了令人瞩目的成绩，但在实际前端编程测试中，它与 Claude Sonnet 4.5 的差距并不明显，两者各有胜负：

简单任务：两者接近
复杂 3D 场景：Gemini 3 有优势
细节和 UI 设计：Claude 4.5 更稳定

这提醒我们，评估 AI 模型不能只看基准测试分数，实际应用场景的测试同样重要。

Antigravity：有亮点，但需打磨

Antigravity IDE 作为 Google 进军 AI 编程工具市场的重要产品，确实带来了一些创新：

真正的亮点：

⭐ 自动化浏览器测试功能（独家）
⭐ 免费使用多款顶级模型（包括 Claude Sonnet 4.5）
✅ 基于 VS Code，上手容易
✅ Planning 模式增加可控性

需要改进的地方：

❌ Gemini 3 Pro 配额限制过严
❌ 语言处理不一致（中文输入，英文输出）
❌ 产品稳定性和细节还需打磨
❌ 多模型切换会影响代码质量

对开发者的实用建议

基于这次深度测试，我们给出以下建议：

1. 对于想尝试 Gemini 3 Pro 的开发者：

✅ 可以在 Google AI Studio 中免费测试前端项目
✅ 适合复杂 3D 可视化、游戏开发等场景
⚠️ 不要期望在所有场景下都超越 Claude 4.5
⚠️ 注意配额限制，复杂项目可能做不完

2. 对于想使用 Antigravity IDE 的开发者：

⭐ 非常值得下载尝试（免费）
⭐ 主要为了免费使用 Claude Sonnet 4.5
⭐ 体验自动化浏览器测试功能
⚠️ 做好遇到 bug 的心理准备
⚠️ 重要项目建议等产品成熟后再用

3. 对于纠结选择哪个 IDE 的开发者：

Cursor：目前最成熟，但需付费
Windsurf：界面精致，功能完善
Antigravity：免费使用顶级模型，有创新功能，但需打磨
建议：Antigravity 作为辅助工具，主力工作还是用成熟产品

多模态能力与生成式 UI

除了编程能力，Gemini 3 Pro 在多模态理解和生成式 UI 方面也有亮点：

多模态能力：

MMMU-Pro 测试：81%
Video-MMMU 测试：87.6%
100 万 token 超长上下文
可处理文本、图像、视频、音频、代码

生成式 UI：

不再局限于文本回答
可以即时创建交互界面、工具和可视化
已整合到 Google 搜索的 AI 模式中
例如：问”RNA 聚合酶工作原理”，直接生成动态可视化界面

这些能力在未来的 AI 应用中可能会发挥更大作用。

五、展望：保持理性，拥抱未来

技术进步是真实的

Gemini 3 Pro 和 Antigravity IDE 的发布，确实标志着 AI 编程工具又迈出了重要一步。我们看到了：

模型能力的持续提升
编程工具的不断创新
开发者体验的逐步改善
代理式编程的逐渐成熟

但也要保持清醒

通过实际测试，我们也应该认识到：

基准测试数据要辩证看待
实际能力提升是渐进式的，不是革命性的
新产品需要时间打磨
不同场景下各有优劣

给开发者的建议

保持学习：AI 编程工具发展迅速，持续关注和学习新工具
理性评估：不被营销数字迷惑，实际测试最重要
多工具并用：不同工具适合不同场景，灵活选择
掌握核心：工具是辅助，编程思维和能力才是核心

Gemini 3 Deep Think 值得期待

Google 还将推出 Gemini 3 Deep Think 增强推理模式，在某些基准测试中表现更优：

Humanity’s Last Exam：41.0%（比 Pro 版高）
GPQA Diamond：93.8%
ARC-AGI-2：45.1%（前所未有的成绩）

这个版本将在安全测试后向 Google AI Ultra 订阅用户开放，可能会带来更强的推理能力。

结语

Gemini 3 Pro 和 Antigravity IDE 的发布，为 AI 编程工具市场注入了新的活力。虽然在实际测试中我们发现它们并非完美无缺，但其中的创新点（尤其是 Antigravity 的自动化测试功能和免费使用顶级模型的策略）确实值得关注。

对于开发者来说，这是一个值得尝试的新选择，但不必急于放弃现有的成熟工具。技术的进步是渐进的，让我们保持开放的心态，在实践中探索最适合自己的开发方式。

AI 编程的未来正在到来，但它不是突然降临，而是在一次次的迭代和改进中逐渐成形。

📌 获取方式：

Gemini 3 Pro 可在 Google AI Studio (aistudio.google.com) 中免费使用
Antigravity IDE 可在官网 (antigravity.google) 下载，支持 macOS、Windows、Linux
Gemini 3 Deep Think 将面向 Google AI Ultra 订阅用户开放

💡 提示：本文测试基于 2025年11月18-19日的产品版本，后续版本可能会有改进。

🚀深度实测！GPT-5.1 vs Claude Sonnet 4.5！谁是赢家？从万字长文到古诗词创作，从3D游戏编程到浏览器自动化，结果竟然出人意料！Claude竟在多项测试中完胜！

2025-11-13T00:00:00+08:00

昨天凌晨，OpenAI发布了GPT-5.1。我花了一整天时间深度测试，结果可能和你预期的不太一样。

先说结论：GPT-5.1确实比三个月前的GPT-5有进步，但如果你期待的是碾压级的提升，可能要失望了。更直白点说，在很多实际任务中，它依然不如Claude Sonnet 4.5。

这不是黑，是实测数据。我做了横向对比测试，包括长文本生成、文学创作、前端开发等多个场景，有些结果出乎意料。

先说说GPT-5.1改了啥

OpenAI这次主打”务实”路线。三个月前GPT-5发布时翻车了——很多用户反映新模型还不如老的好用，数学题算错，代码写得不靠谱。OpenAI当时解释说是”路由系统”的锅，就是AI不知道该用哪个版本来回答你。

GPT-5.1的改进主要集中在三个方面：

第一，双模式系统。 Instant模式速度快，适合日常对话；Thinking模式专攻难题，会根据问题复杂度动态调整思考时间。听起来很美好，实测下来确实比GPT-5更灵活。

第二，减少”胡编乱造”。 官方数据说幻觉率从4.8%降到2.1%，这个改进挺实在的。测试中遇到不确定的问题，它确实更愿意承认”我不知道”，而不是硬着头皮瞎编。

第三，个性化定制。 现在可以选8种不同的对话风格，从专业严肃到有趣轻松都有。这个功能挺有用，不同场景可以切换不同风格。

实测数据说话：长文本生成完败

我的第一个测试是让两个AI生成万字学习报告。给了同样的开源项目仓库链接，要求深度分析。

结果？

GPT-5.1： 总字符3.1万，中文约6900字 Claude Sonnet 4.5： 总字符5.1万，中文约1.2万字

Claude直接多写了近一倍。这不是个例，在多轮测试中，GPT-5.1的长文本输出能力始终比较”克制”。如果你需要生成长篇报告、详细分析，Claude确实更给力。

有意思的是第二轮测试。我让它们写一篇1000字左右的公众号文章介绍这个项目。

GPT-5.1： 写了1600多字，技术细节很详实，但风格偏硬核，适合开发者看 Claude Sonnet 4.5： 写了1400多字，更接近1000字的要求，通俗易懂，小白也能看懂

拿这两篇文章给Gemini 2.5 Pro评判，它的结论是：GPT-5.1写的是技术文档，Claude写的是科普文。各有千秋，但Claude在字数控制和受众定位上更精准。

文学创作：差距明显

这个测试让我挺意外的。我让两个AI按照”望海潮”这个词牌名写一首宋词，主题是”秋去冬来，慨叹时光流逝”，要求严格遵循格律。

Claude Sonnet 4.5 50秒就写出来了：

“霜染层林，风吹落叶，西窗又见秋残。雁阵惊寒，荷池凋敝，凄凄几度凭栏…”

意象经典（霜、雁、荷池都是写秋的标准配置），情感到位，格律基本符合。虽然下阕有一句”冬临春去匆忙”不太合适（题目要求的是秋冬，不是冬春），但整体很有意境。

GPT-5.1 思考更久才给出答案：

“霜风渐紧，疏林欲尽，残阳又坠天涯。寒雁横空，芦花带雪，疏钟远度平沙…”

格律也对，但问题不少：

上阕和下阕都提到”霜”，重复了
“新篁覆瓦”这个词用得不对，新篁是春天的竹笋，和秋冬主题不搭
“鬓影添华”和后面又重复提”鬓影添霜华”
整体读起来比较生硬

老实说，在古诗词这种需要意境和文采的任务上，GPT-5.1明显不如Claude。

前端开发：各有输赢

测试了几个前端任务：

SVG动画： 让它们用SVG画一只猫和一只狗在草地上走路，天空有云和飞鸟。

GPT-5.1：画出来的分不清是猫还是狗，比较抽象
Claude Sonnet 4.5：猫狗能认出来，鸟画得也更像样

UI设计： 让它们做一个蜂箱管理仪表盘。

Claude的配色、布局、字体都很精致
GPT-5.1用了深黑配色，整体效果差一截

页面还原： 给一张截图让它们还原。

两个都还原得不错
Claude的配色更接近原图
GPT-5.1的背景色偏差比较大

3D开发： 让它们用Three.js开发魔方游戏。这个难度大，涉及3D图形、WebGL、旋转算法、交互逻辑等多个技术点。

结果两个都翻车了：

Claude做出了一个魔方，但点击”打乱”按钮没反应，功能没实现
GPT-5.1的页面直接看不到魔方

这个测试说明，真正复杂的3D应用，目前的AI还搞不定。

Python动画：旗鼓相当

最后测试了一个有趣的任务：用Python写一个冒泡排序的可视化动画，画面中有12只不同大小的小鸭子，一只大母鸭用冒泡算法把小鸭子从小到大排序。

两个AI都完成了：

Claude画的鸭子太大太密集，不太好看清细节，但排序逻辑完全正确
GPT-5.1画的鸭子简陋一些，相邻鸭子大小区分不明显，但也实现了功能

这个任务上两个差不多，都能完成，只是视觉效果各有问题。

知识更新度：Claude领先

一个容易被忽略的点：知识库截止日期。

GPT-5.1： 2024年6月
Claude Sonnet 4.5： 2025年1月

整整差了7个月。如果你需要了解最新的技术动态、时事信息，Claude的知识更新。

浏览器自动化：GPT-5.1有进步

在OpenAI的Atlas浏览器中测试了自动化任务：访问博客，提取第一篇文章，改写后发布到X平台。

GPT-5.1完成这个任务用了1分05秒，速度比之前的GPT-5快了不少。虽然最后没有直接点击发布（需要人工审核），但整个流程执行得挺流畅。

这可能是GPT-5.1少数明显优于前代的地方。

总结：有进步，但别期待太高

测试下来，我的真实感受是：

GPT-5.1的优点：

比GPT-5确实有进步，尤其在减少胡编和浏览器自动化方面
个性化定制功能实用
数学和编程能力有提升（虽然没实测，但官方数据应该靠谱）

GPT-5.1的短板：

长文本生成能力依然弱于Claude
文学创作（古诗词、散文）明显不如Claude
前端UI设计审美一般
复杂3D应用还搞不定
知识库更新慢于Claude

适用场景建议：

需要生成长文、详细报告 → 用Claude
写作需要文采、意境 → 用Claude
前端UI设计 → 优先Claude
数学、编程、逻辑推理 → 可以试试GPT-5.1
浏览器自动化 → GPT-5.1不错
日常对话、快速查询 → 两个都行

OpenAI这次的更新很务实，没吹牛，老老实实修bug、优化体验。但客观说，GPT-5.1并没有拉开和竞品的差距，在某些场景甚至还落后。

AI的竞争现在是白热化阶段，每个模型都有自己的长处和短处。作为用户，最好的策略是根据任务选模型，而不是盲目迷信某一个。

我的建议：Plus会员可以同时订阅ChatGPT和Claude，根据任务切换使用。专业用户建议两个都试试，找到最适合自己工作流的那个。

三个月后GPT-5的翻车还历历在目，这次5.1算是稳住了，但要说惊艳，还差点意思。

你用过GPT-5.1了吗？实际体验如何？欢迎在评论区分享你的测试结果。

测试环境说明：

测试时间：2025年11月13日
GPT-5.1：Thinking模式
Claude Sonnet 4.5：Thinking模式
测试项目：长文本、文学创作、前端开发、Python动画、浏览器自动化
客观性声明：本文基于实际测试结果，未收取任何推广费用

🚀微调的力量：看3B参数的DeepSeek-OCR如何蜕变为中文识别高手！零成本微调保姆级教程：用Google Colab免费GPU，十分钟打造一个专属领域的OCR识别神器！解决手写体、扫描件识别难题

2025-11-11T10:00:00+08:00

你是否遇到过这样的困境：想要识别图片中的文字，但大模型太”重”跑不动，小模型又经常认错字？比如把清晰的”一”识别成”二”，把重要的表格数据搞得面目全非……

别急，今天我要分享一个”化腐朽为神奇”的方法——通过微调技术，让仅有3B参数的DeepSeek-OCR小模型，变成识别准确率媲美大模型的”识字专家”。更重要的是，整个过程只需10分钟，还能用Google Colab的免费GPU完成！

一、认识DeepSeek-OCR：小而美的OCR模型

DeepSeek-OCR是一款专门用于文字识别和文档理解的视觉模型，参数量只有3B。别看它”个头小”，它有几个独特的优势：

超高效率：使用的视觉token数量是文本token的1/10，意味着处理速度比传统文本LLM快10倍
精准识别：在标准测试中达到97%的准确率
场景丰富：能处理表格、论文、手写体等多种复杂场景
硬件友好：3B的参数量意味着普通显卡也能跑得动

但是，正如”万金油”往往哪里都不精通，DeepSeek-OCR作为通用模型，对各种语言都能识别，但每种语言的准确率都不够理想。这就是我们需要微调的原因。

二、什么是微调？为什么要微调？

用最简单的话来说，微调就是给模型”开小灶”。

想象一下，你有一个什么都会的全能助手（通用模型），但让TA做中文会计报表时经常出错。这时你就给TA准备一本专门的中文会计教材，让TA集中学习这个领域的知识，慢慢地，TA就从”全能选手”变成了”中文会计专家”。

微调的过程就是这样：用特定领域的数据集训练模型，让它在你关注的场景下表现更出色。

什么场景需要微调OCR模型？

特定语言优化：比如提升中文、波斯文、阿拉伯文等特定语言的识别准确率
行业文档识别：医疗处方、法律合同、财务报表等专业文档
特殊字体识别：手写体、艺术字、古籍文字
复杂版式处理：多栏排版、表格嵌套、图文混排
低质量图像：模糊扫描件、拍照文档、旧档案

三、微调效果有多惊艳？

根据Unsloth官方的测试数据，微调效果非常显著：

案例一：波斯文识别（官方数据）

在20万样本的波斯文数据集上微调后，仅用60个训练步（批量大小为8）：

字符错误率（CER）从149.07%降至60.43%
准确率提升了88.26%
这意味着微调后的模型准确度提升了57%

案例二：中文识别（实测数据）

在中文场景下的测试显示：

微调前：将清晰的”一”识别成”二”
微调后：完美识别所有测试样本
整体错误率下降70%以上

这样的提升，对于实际应用来说是质的飞跃。

四、微调实战：10分钟完成训练

整个微调流程比你想象的简单得多，核心步骤只有三步：

第一步：准备数据集（5分钟）

你需要准备两类数据：

图像文件：包含需要识别的文字图片
标注文本：图像对应的正确文字内容

数据集格式很简单，就是”图像-文本”对：

图像路径: images/doc001.jpg
对应文本: 这是图像中的完整文字内容，包括标点符号。

数据集来源：

通用场景：可以使用Hugging Face上开源的高质量中文OCR数据集
特定场景：自己制作数据集，准备10-1000个样本即可看到效果

制作自己的数据集： 使用提供的Python脚本，只需运行：

python create_dataset.py data.txt output.parquet

脚本会自动将你的图像和文本转换成标准的训练格式。

第二步：配置环境并开始训练（2分钟）

打开Google Colab，选择免费的T4 GPU
运行Unsloth提供的微调脚本
将默认数据集替换成你的中文数据集
点击运行，开始训练

核心参数设置：

训练样本：1000-2000个足够（更多样本效果更好）
训练时间：T4 GPU上约6-7分钟
显存占用：14GB以内，完全免费

第三步：验证效果（3分钟）

训练完成后，立即可以测试：

# 加载微调后的模型
model, tokenizer = FastVisionModel.from_pretrained("./fine_tuned_model")

# 测试识别
result = model.infer(tokenizer, prompt="\nFree OCR.", image_file="test.jpg")
print(result)

对比微调前后的识别结果，你会看到显著的改进。

五、技术细节：LoRA高效微调

微调使用的是LoRA（低秩适应）技术，这是一种参数高效的微调方法：

只训练少量参数：不需要调整整个模型，只训练新增的小规模适配器
显存占用低：T4免费GPU就能轻松完成
训练速度快：Unsloth优化后，速度提升1.4倍，显存使用减少40%
效果不打折：准确率与全量微调相当

这也是为什么我们能用免费资源完成专业级微调的原因。

六、实际应用场景举例

场景1：扫描档案数字化

某档案馆有大量80年代的模糊扫描文件，通用OCR模型错误率高达30%。使用500个样本微调后，错误率降至5%以下，大大加速了数字化进程。

场景2：手写体识别

医院需要识别医生的手写处方。使用1000个标注样本微调后，识别准确率从60%提升到92%，显著减少了人工复核工作量。

场景3：多语言文档处理

跨国公司需要处理包含中英混排的合同文档。通过混合数据集微调，模型在中英混排场景下的准确率达到98%。

七、成本分析：真的零成本

让我们算一笔账：

传统方案：

购买商业OCR API：0.01元/张起
处理10万张图片：1000元起
月度费用：持续支出

微调方案：

Google Colab免费GPU：0元
训练时间：10分钟
部署成本：私有化部署，一次投入长期使用
总成本：几乎为零

更重要的是，微调后的模型完全属于你，可以：

私有化部署，数据安全有保障
无限次使用，不用担心API调用费用
持续优化，随时用新数据再次微调

八、开始你的微调之旅

所有资源都已准备好：

Unsloth官方教程：提供完整的Colab笔记本和代码
数据集制作脚本：含详细中文注释
开源中文数据集：可直接使用的高质量训练数据
社区支持：遇到问题随时查阅文档和博客

微调不再是高深莫测的技术，它已经变得像安装软件一样简单。只要你有需求，有数据，就能动手实践。

写在最后

在AI快速发展的今天，我们不仅要会”用”模型，更要学会”调”模型。微调技术让我们能够用较小的成本，获得针对性极强的AI能力。

DeepSeek-OCR的微调实战，只是一个开始。掌握了这个方法，你可以将它应用到：

其他OCR模型的优化
多模态大模型的定制
特定领域的智能应用开发

技术的门槛在降低，创新的空间在扩大。现在，轮到你动手实践了！

📚 资源链接：

Unsloth官方文档：https://docs.unsloth.ai
免费Colab笔记本：文中提供的链接
数据集制作脚本：视频描述栏获取

💡 小提示：

建议从100-500个样本开始尝试
训练时注意保存检查点，避免意外中断
微调后记得在实际场景中测试效果

如果这篇文章对你有帮助，欢迎点赞、转发，让更多人了解AI微调的魅力！有任何问题也欢迎在评论区讨论交流。

#AI技术 #OCR识别 #模型微调 #DeepSeek #机器学习 #深度学习实战

微调脚本

https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Deepseek_OCR_(3B).ipynb

中文数据集

https://huggingface.co/datasets/priyank-m/chinese_text_recognition

图像文本对应content.md

/Users/charlesqin/Desktop/img/1.jpg 剧情跌宕起伏，人
/Users/charlesqin/Desktop/img/2.jpg 好的，特效嘛，也算是良心了，演
/Users/charlesqin/Desktop/img/3.jpg 。。。，剧情逻辑有点不通啊啊。
/Users/charlesqin/Desktop/img/4.jpg 以看不了太烧脑的悬疑片
/Users/charlesqin/Desktop/img/5.jpg 。;这颗行星上存在
/Users/charlesqin/Desktop/img/6.jpg 磁场。不加外磁场时，原子在两个
/Users/charlesqin/Desktop/img/7.jpg 过外放的听歌确实比较不错第一
/Users/charlesqin/Desktop/img/8.jpg 快的,书也很整洁,但是我发现在
/Users/charlesqin/Desktop/img/9.jpg 为空间上的排列，有利于科学研究
/Users/charlesqin/Desktop/img/10.jpg 谁也不讨厌谁

数据集创建

#!/usr/bin/env python3
"""
安装： pip install datasets Pillow scikit-learn tqdm                      
从 content.md 创建 Parquet 格式的 OCR 数据集

使用方法:
    python create_parquet_dataset.py content.md

或者自定义输出路径:
    python create_parquet_dataset.py content.md --output my_dataset
"""

import os
import sys
from PIL import Image as PILImage
from datasets import Dataset, DatasetDict, Image
from sklearn.model_selection import train_test_split
from tqdm import tqdm

def parse_content_md(file_path):
    """解析 content.md 文件"""
    print(f"📖 读取文件: {file_path}")

    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line_num, line in enumerate(f, 1):
            line = line.strip()

            # 跳过空行和注释
            if not line or line.startswith('#'):
                continue

            # 分割图像路径和文本
            parts = line.split(None, 1)

            if len(parts) == 2:
                image_path, text = parts
                data.append((image_path, text))
            else:
                print(f"⚠️  行 {line_num}: 格式不正确，已跳过")

    print(f"✅ 找到 {len(data)} 条记录")
    return data

def create_dataset(data):
    """创建数据集"""
    print(f"\n📦 加载图像...")

    images = []
    texts = []
    skipped = 0

    for img_path, text in tqdm(data):
        # 检查文件
        if not os.path.exists(img_path):
            print(f"⚠️  图像不存在: {img_path}")
            skipped += 1
            continue

        try:
            # 加载图像
            img = PILImage.open(img_path).convert('RGB')

            # 基本验证
            if img.size[0] < 10 or img.size[1] < 10:
                print(f"⚠️  图像太小: {img_path}")
                skipped += 1
                continue

            if not text or text.strip() == '':
                print(f"⚠️  文本为空: {img_path}")
                skipped += 1
                continue

            images.append(img)
            texts.append(text)

        except Exception as e:
            print(f"⚠️  加载失败 {img_path}: {e}")
            skipped += 1
            continue

    print(f"✅ 成功加载: {len(images)} 个样本")
    if skipped > 0:
        print(f"⚠️  跳过: {skipped} 个样本")

    # 创建数据集
    dataset = Dataset.from_dict({
        'image': images,
        'text': texts
    })

    dataset = dataset.cast_column('image', Image())

    return dataset

def split_dataset(dataset):
    """分割数据集为训练/验证/测试集"""
    print(f"\n🔀 分割数据集...")

    indices = list(range(len(dataset)))

    # 80% 训练，10% 验证，10% 测试
    train_indices, temp_indices = train_test_split(
        indices, train_size=0.8, random_state=42
    )

    val_indices, test_indices = train_test_split(
        temp_indices, train_size=0.5, random_state=42
    )

    train_dataset = dataset.select(train_indices)
    val_dataset = dataset.select(val_indices)
    test_dataset = dataset.select(test_indices)

    print(f"  训练集: {len(train_dataset)} 样本")
    print(f"  验证集: {len(val_dataset)} 样本")
    print(f"  测试集: {len(test_dataset)} 样本")

    return DatasetDict({
        'train': train_dataset,
        'val': val_dataset,
        'test': test_dataset
    })

def save_parquet(dataset_dict, output_prefix):
    """保存为 Parquet 格式"""
    print(f"\n💾 保存为 Parquet 格式...")

    for split_name, split_data in dataset_dict.items():
        output_file = f"{output_prefix}_{split_name}.parquet"
        split_data.to_parquet(output_file)
        print(f"  ✅ {split_name}: {output_file}")

def print_statistics(dataset_dict):
    """打印统计信息"""
    print("\n" + "=" * 70)
    print("📊 数据集统计")
    print("=" * 70)

    for split_name, split_data in dataset_dict.items():
        print(f"\n{split_name}:")
        print(f"  样本数: {len(split_data)}")

        # 文本长度
        text_lengths = [len(ex['text']) for ex in split_data]
        print(f"  文本长度: {min(text_lengths)}-{max(text_lengths)} "
              f"(平均: {sum(text_lengths) / len(text_lengths):.1f})")

        # 显示样例
        if len(split_data) > 0:
            sample_text = split_data[0]['text']
            display_text = sample_text[:40] + "..." if len(sample_text) > 40 else sample_text
            print(f"  样例: {display_text}")

def main():
    # 参数解析
    if len(sys.argv) < 2:
        print("使用方法: python create_parquet_dataset.py content.md [--output 输出前缀]")
        print("\n示例:")
        print("  python create_parquet_dataset.py content.md")
        print("  python create_parquet_dataset.py content.md --output my_dataset")
        sys.exit(1)

    input_file = sys.argv[1]

    # 输出路径
    if len(sys.argv) >= 4 and sys.argv[2] == '--output':
        output_prefix = sys.argv[3]
    else:
        output_prefix = "my_ocr_dataset"

    print("=" * 70)
    print("🚀 创建 Parquet 格式 OCR 数据集")
    print("=" * 70)
    print(f"输入文件: {input_file}")
    print(f"输出前缀: {output_prefix}")

    # 检查输入文件
    if not os.path.exists(input_file):
        print(f"\n❌ 错误: 文件不存在: {input_file}")
        sys.exit(1)

    try:
        # 1. 解析文件
        data = parse_content_md(input_file)

        if len(data) == 0:
            print("\n❌ 错误: 没有找到有效数据")
            sys.exit(1)

        # 2. 创建数据集
        dataset = create_dataset(data)

        if len(dataset) == 0:
            print("\n❌ 错误: 没有成功加载任何样本")
            sys.exit(1)

        # 3. 分割数据集
        dataset_dict = split_dataset(dataset)

        # 4. 打印统计
        print_statistics(dataset_dict)

        # 5. 保存为 Parquet
        save_parquet(dataset_dict, output_prefix)

        # 完成
        print("\n" + "=" * 70)
        print("✅ 完成！")
        print("=" * 70)

        print("\n📦 生成的文件:")
        print(f"  - {output_prefix}_train.parquet")
        print(f"  - {output_prefix}_val.parquet")
        print(f"  - {output_prefix}_test.parquet")

        print("\n📖 如何使用:")
        print("  from datasets import load_dataset")
        print()
        print("  # 加载训练集")
        print(f"  train_dataset = load_dataset('parquet', data_files='{output_prefix}_train.parquet')")
        print()
        print("  # 或加载所有分割")
        print(f"  dataset = load_dataset('parquet', data_files={{")
        print(f"      'train': '{output_prefix}_train.parquet',")
        print(f"      'val': '{output_prefix}_val.parquet',")
        print(f"      'test': '{output_prefix}_test.parquet'")
        print(f"  }})")
        print()
        print("  # 用于微调")
        print("  train_data = dataset['train']")

    except Exception as e:
        print(f"\n❌ 错误: {e}")
        import traceback
        traceback.print_exc()
        sys.exit(1)

if __name__ == '__main__':
    main()

🚀🚀终于找到最强开源OCR模型Chandra！本地部署+高难度测评！手写体、繁体字、数学公式、重叠文字全部完美识别，告别漏字漏页问题，基准测试吊打所有同类模型！完整识别各种复杂文档，超越DeepSeek

2025-11-03T10:00:00+08:00

这两年开源 OCR 模型真是井喷：DeepSeek-OCR、olmOCR、dots.ocr……名字越来越多，教程也越来越花。但很多朋友踩过的坑大同小异：一到长文档、多页 PDF、复杂排版（页眉页脚、多栏、表格、公式、图表），效果就开始“打折”——漏字、漏段，页眉页脚识别丢失，段落顺序错乱，表格对不齐，最后导出的文本还得人工返工。效率上不去，可靠性也难以让人放心。

我最近把一款开源的新模型 Chandra 拉出来实测，第一次有了“哦，这次真的可用”的感觉。它的定位很清晰：做高质量文档 OCR，并且尽可能恢复原始结构。简单说，不只是“看得懂字”，而是“看得懂文档”。

为什么是 Chandra？

先看几个关键点：

参数与定位：Chandra 约 9B 参数，不是体量怪兽，但专注度很高，目标就是把文档里的结构和要点“捞干净”。
结构化输出：支持直接导出 Markdown / HTML / JSON。这意味着标题层级、段落、列表、表格、图像引用这些结构，尽可能被保留下来，后续就能直接进知识库、搜索系统或排版流程，而不是手工再整理。
多语言与手写体：官方标注 40+ 语言，中文印刷体、中文手写体、表单填写类内容识别都比较稳；医生便笺、问卷、合同这类“格式复杂+手写混排”的场景，它并不是简单“过一遍”，而是尽力恢复结构。
复杂元素友好：在表格、数学公式、报纸多栏、页眉页脚等“高难场景”上，Chandra 的还原度是有说服力的；图表、示意图也能抽取并给出结构化信息（例如图题、说明）。
基准表现：基于公开对比和实际体验，Chandra 在综合表现上超过了 dots.ocr、olmOCR、DeepSeek-OCR 等常见开源方案（尤其是长文档与复杂排版）。这不是“全面碾压”的口号，而是能在关键维度上，给内容团队更稳定的产出。

实测体验：最打动人的三个细节

页眉页脚、细小文字不再“爱丢”

很多 OCR 在页面信息密集时容易跳过这些“边角料”。Chandra 在长 PDF 扫描件上，能把页眉页脚、页码等稳定提取，并放回正确位置，后续汇编就顺手很多。
结构化导出真的能用

HTML/Markdown/JSON 的导出不是“挂个名”，而是标题层级清楚、段落分明、p 标签/列表/表格组织合理。对于运营、技术团队，复制进 CMS、或者喂给下游解析程序，几乎零改动就能跑。
复杂排版和混写内容的“韧性”

模糊扫描、行间重叠的代码段、表格单元格文字互压、学术论文的公式与参考文献、繁体古籍的小字标点……Chandra 的恢复率都很有韧性。不是完美，但明显更省心。

上手与部署：既能“快用”，也能“深用”

零门槛体验：

你可以直接用官方的 Web Demo/平台 上传 PDF 看结果；页面支持切换 HTML/Markdown/JSON 视图，适合先评估质量。
本地一键跑（LM Studio）：

搜索“Chandra”，选择 4bit/8bit 量化版本下载，就能在本地快速起跑；对个人工作站和轻量生产环境很友好。
官方仓库部署（Ubuntu）：

熟悉命令行的同学可以按照官方给的流程：git clone 仓库 → uv/pip 安装 → 命令行推理或启动 Web Demo。这样做的好处是：可控、可批量、可集成，方便接入你的数据处理流水线。

适用人群与场景建议

内容团队 / 自媒体 / 编辑部：批量把扫描稿、采访记录、图文混排材料转为结构化素材，二次创作更快。
企业知识库 / 法务档案：合同、表单、制度手册、历史文档的批量数字化与结构保留，方便检索与复用。
学术与科研：论文 PDF 的公式、表格、参考文献抽取；数据再组织更轻松。
教育场景：试卷、练习册、批注笔记的 OCR；注音、符号、页码等细节不再缺失。
历史文献/古籍整理：繁体与标点的保留度较高，后续人工校勘成本更低。

该如何在工作流里落地？

给一个典型的“从试用到生产”的路径供参考：

小样本试跑：选取你最头疼的几类文档，先通过 Web Demo 验证结构化输出的质量与可用度。
建立模板：把 HTML/Markdown 的输出样式与你现有 CMS/知识库做一次字段/层级对齐，确定“无痛接入”的模板。
本地化与自动化：在 LM Studio 或 Ubuntu 部署，用命令行/脚本实现批处理；对接对象存储（如目录监听）、数据库或搜索引擎。
质量抽检与回标：建立小规模抽检机制，记录失败样本；按场景微调参数或预处理（如分辨率、裁切策略），让模型越跑越稳。
安全与合规：敏感文档优先本地化运行；对导出的结构化数据进行最小必要字段落库，保留审计日志。

一点理性预期

Chandra 的表现让我对“开源 OCR 真正可用”有了信心，但也需要理性看待：极端模糊、严重倾斜或低对比度的原件，仍可能需要前处理（如增强、去噪、旋转校正）；个别复杂表格或稀有公式体例，也可能需要微调或人工复核。好消息是，它在长文档稳定性、结构化输出质量这些关键指标上，已经足以支撑“把活儿交给它，再做抽检”的实战工作流。

一句话总结：如果你在找一款开源、可本地化、对复杂文档友好、且能直接产出可用结构化结果的 OCR，Chandra 值得立刻加入你的工具箱。它不是“所有维度都第一”的神话，但在真正重要的环节——长文档不漏、结构不丢、结果能用——它做得足够好。欢迎你也跑一跑，看看它能不能把你的文档流程“理顺”起来。

🚀笔记

curl -LsSf https://astral.sh/uv/install.sh | sh

git clone https://github.com/datalab-to/chandra.git
cd chandra

uv sync

source .venv/bin/activate

pip install chandra-ocr

ulimit -n 65535

chandra_app

# 查看显存 方式1
watch -n 1 nvidia-smi

# 查看显存 方式2
sudo apt install nvtop

nvtop

🚀程序员福音！学习新框架从此不用看文档？Skill Seeker让Claude成为你的技术导师，CrewAI、AutoGen、LangGraph随便上，自动生成完整项目代码，告别学习曲线陡峭的噩梦！不用再啃文档了！这个工具让 Claude 秒懂任何技术框架

2025-10-25T00:00:00+08:00

说实话，最近 Anthropic 推出的 Claude Skills 功能真的很香。作为一个天天和 AI 打交道的开发者，我发现一个很有意思的现象：Claude 这个 AI 助手本身很聪明，但它对一些新出的框架、工具、甚至是小众的开源项目，理解得并不够深入。

比如前几天我想用 CrewAI 这个智能体框架写点东西，问了 Claude 好几个问题，它给的答案要么过时，要么不够准确。我只能打开官方文档，一页一页翻，然后自己总结要点，再喂给 Claude。

这个过程太痛苦了。

后来我想，既然 Claude 推出了 Skills 功能，那能不能有个工具，直接把官方文档自动转成 Claude 能理解的技能包？

结果还真让我找到了——Skill Seeker。

用了几天之后，我只想说：早点知道这个工具，我能少走多少弯路啊！

传统方式有多麻烦？

在说这个工具之前，咱们先聊聊传统的做法有多折腾。

假设你想让 Claude 帮你写一个基于某个框架的项目，比如 LangGraph、CrewAI、或者是任何一个新出的工具。传统的流程是这样的：

第一步：打开官方文档网站

第二步：一页一页地看，理解核心概念

第三步：复制关键内容，整理成笔记

第四步：把笔记喂给 Claude，希望它能理解

第五步：发现 Claude 还是不太懂，继续补充更多上下文

这一套流程下来，少说也得 2-3 个小时。

而且最要命的是，当这个框架更新了新版本，你又得重新来一遍。

有没有想过，这个过程能不能自动化？

答案是：可以。

Skill Seeker：解放双手的神器

Skill Seeker 是一个开源项目，它的核心功能非常简单粗暴：

给它一个文档网站的链接，它就能自动生成一个 Claude 技能包。

对，就这么简单。

你只需要运行一条命令，剩下的事情全部交给它：

它会自动爬取整个文档网站
智能识别哪些内容是重要的
用 AI 提取代码示例和最佳实践
最后打包成一个 .zip 文件

整个过程大概 10-20 分钟，你都不用管，让它自己跑就行。

等它跑完了，你把生成的 .zip 文件上传到 Claude，就完事了。

从此以后，Claude 就对这个框架了如指掌。

实际体验：真的有这么神奇？

我自己试了几个场景，给大家分享一下真实感受。

场景一：CrewAI 智能体开发

CrewAI 是最近很火的一个多智能体框架，文档更新特别快，Claude 的训练数据明显跟不上。

我用 Skill Seeker 爬了它的官方文档，生成了一个技能包。

然后我问 Claude：”帮我创建一个内容生成团队，包括研究员、作家、编辑三个角色，他们协作完成一篇博客。”

结果：Claude 直接给我生成了完整的代码，包括：

每个 Agent 的角色定义（role、goal、backstory）
Task 的依赖关系配置
正确的 Process 类型（sequential）
还贴心地加了详细注释

代码质量高得吓人，直接能用。

场景二：LangGraph 状态管理

LangGraph 是 LangChain 团队做的高级编排工具，它的图状态管理概念比较新，Claude 之前总是搞不清楚。

我给它装上 LangGraph 技能包之后，再问它复杂的状态转换问题，它回答得清清楚楚，还能画出状态转换图。

这种感觉就像是，你给 Claude 配了一个专业顾问团队。

场景三：本地模型部署

我还试了 vLLM 这种推理引擎的文档。

说实话，vLLM 的配置参数特别多，什么 max_model_len、tensor_parallel_size，每次都得翻文档才能搞清楚。

有了技能包之后，我直接问：”帮我配置 vLLM 部署 Llama-3-8B，支持高并发。”

Claude 给的配置直接就是最佳实践级别的。

使用起来有多简单？

可能有人会担心：这玩意会不会很复杂？

放心，真的超级简单。

安装（就一条命令）

pip install requests beautifulsoup4

就这两个依赖包，几秒钟装完。

使用（两种方式）

方式一：用预设配置

Skill Seeker 内置了很多常见框架的配置，比如 React、Vue、Django、FastAPI 等等。

你只需要运行：

python doc_scraper.py --config configs/react.json --enhance-local

它就会自动去爬 React 官方文档，然后生成技能包。

方式二：自定义文档

如果你要处理的是小众框架，也很简单：

python doc_scraper.py --interactive

它会问你几个问题：

框架名称是啥？
官方文档网址是啥？
简单描述一下这个框架？

回答完这几个问题，它就会自动生成配置，然后开始爬取。

上传到 Claude

等它跑完之后，你会在 output/ 文件夹里找到一个 .zip 文件。

去 Claude 的设置里，找到 Skills，点击上传，选择这个文件，搞定。

从此，Claude 就拥有了这个框架的”专家级知识”。

适合什么人用？

说实话，只要你在用 Claude 做开发，这个工具都值得试试。

特别适合：

1. 经常需要学习新框架的开发者

不用再花时间啃文档了，直接让 Claude 帮你。

2. 团队协作

给团队创建统一的技能包，大家对技术栈的理解都能保持一致。

3. AI 应用开发者

LangChain、LlamaIndex、AutoGen 这些工具变化太快，技能包能帮你跟上最新版本。

4. 想提升效率的任何人

说白了，时间就是金钱。能省下 2-3 小时的时间，这个工具就值得用。

一些实用技巧

用了一段时间之后，我总结了几个小技巧：

技巧 1：优先爬小众框架

像 PyTorch、React 这种大框架，Claude 本身就挺熟的。

把时间花在那些 Claude 不太了解的小众工具上，比如：

Pydantic AI（2024 年底才出的）
DSPy（斯坦福的提示词优化框架）
Marvin（优雅的 AI 工具库）

这些才是技能包真正发挥价值的地方。

技巧 2：定期更新

有些框架更新特别快，比如 LangChain、CrewAI。

建议每个月重新爬一次，保持技能包是最新的。

好消息是，Skill Seeker 有缓存功能，重新生成只需要几分钟。

技巧 3：组合使用

一个复杂项目可能需要多个技能包。

比如做一个 RAG 系统：

LlamaIndex（数据处理）
Qdrant（向量数据库）
FastAPI（后端接口）

三个技能包一起用，Claude 就能帮你搞定整个技术栈。

我的真实感受

用了 Skill Seeker 一段时间，我最大的感受是：学习成本真的降低了。

以前学一个新框架，我得：

先看官方文档（1-2 小时）
跑几个 Demo（1 小时）
踩坑、查资料（不确定多久）

现在我只需要：

用 Skill Seeker 生成技能包（10-20 分钟）
直接让 Claude 帮我写代码
遇到问题直接问 Claude

学习曲线被压平了。

而且更重要的是，我可以同时学多个技术栈。

以前同时学 3 个新框架？想都不敢想。

现在？给每个框架生成一个技能包，然后让 Claude 当我的”全栈顾问”，完全没压力。

一些注意事项

说了这么多好话，也得说说这个工具的一些限制：

爬取需要时间

第一次爬一个大型文档网站，可能需要 20-30 分钟。不过只需要爬一次，后面更新很快。
不是所有网站都能爬

有些网站有反爬措施，或者结构太复杂，可能爬不了。不过 99% 的文档网站都没问题。
AI 增强需要 Claude Code

如果你想要高质量的技能包，最好用本地 AI 增强功能。这需要你有 Claude Code Max 计划。

不过即使不用 AI 增强，基础的技能包也能用。

最后说两句

Skill Seeker 这个项目真的很实用。

它解决的不是技术问题，而是时间问题。

在 AI 时代，谁能更快地掌握新工具、新框架，谁就能占得先机。

这个工具就像是给你配了一个”学习加速器”。

更重要的是，它是完全免费开源的。

项目地址在 GitHub：yusufkaraaslan/Skill_Seeker

感兴趣的话，去试试吧。

说不定，它能帮你省下几十个小时的时间。

P.S. 如果你用了这个工具，欢迎在评论区分享你的使用体验。我特别好奇大家都用它生成了哪些框架的技能包。

另外，如果你有什么好的使用技巧，也欢迎分享，大家一起交流进步！

关注我，获取更多 AI 工具和效率提升技巧 👇

安装和使用笔记

git clone https://github.com/yusufkaraaslan/Skill_Seeker.git

cd Skill_Seeker

./setup_mcp.sh

mkdir ~/.claude/skills/autogen/

cp -r /Users/charlesqin/Skill_Seeker/output/autogen/* ~/.claude/skills/autogen/

列出可用Skils

# 列出可用Skills
List all available Skills

# 创建Skills
I want to create a skill for quarterly business reviews

I need a skill for analyzing customer feedback

Help me create a skill for [whatever you do]

Hey Claude—I just added the “skill-creator” skill. Can you make something amazing with it

Claude Code手动安装Skills

# Navigate to your home directory
cd ~

# Clone the repository
git clone https://github.com/anthropics/skills.git

# Copy the skill-creator to your Claude Code skills directory
mkdir -p ~/.claude/skills
cp -r ~/skills/skill-creator ~/.claude/skills/

# Check that the skill was copied correctly
ls -la ~/.claude/skills/skill-creator/

mkdir ~/.claude/skills/autogen/

cp -r /Users/charlesqin/Skill_Seeker/output/autogen/* ~/.claude/skills/autogen/

AI超元域的博客

🚀开发者必看！GPT-5.2深度实测！基准测试碾压Claude Opus 4.5？Codex实测揭秘其真实编程水平，请不要继续吹捧了！

一、官方怎么定义 GPT-5.2：更偏“生产力”和“长任务”的旗舰升级

二、我的实测方法：不追求“题刁”，追求“像真实工作一样会暴露问题”

三、ChatGPT 网页端：先测“信息新鲜度”，再测“读图+前端落地”

1）知识库截止日期：2025 年 8 月（相对新）

2）前端 UI 复刻：复杂仪表盘截图 → 直接给可运行代码

四、SVG 动画：能画但“不会动”，暴露出生成动画的短板

五、Python + PyGame 冒泡排序动画：逻辑正确，但美术表达一般

六、Atlas 浏览器 Agent Mode：有行动力，但稳定性与资源消耗要警惕

七、Codex 深度测试：强项更突出，但也会在“保持原逻辑”上翻车

1）Manim 3D 可视化：能做出来，但质感粗糙

2）AutoGen → Google ADK 重构（并接入 Mistral + UI）：能迁移，但没保持原运行逻辑，还疑似死循环

八、iOS 项目重构：MVVM → MV + @Observable，实测成功，是这期最惊喜的一段

九、全栈 MVP：Next.js + Tailwind + Supabase 的宠物领养平台，能做出骨架，但功能完整度仍需补齐

十、总评：GPT-5.2 的“真实提升”在哪里？又该怎么用才不踩坑？

你能明显感受到它更强的地方

你需要警惕的短板

更推荐的用法（也更符合官方的方向）

结语：别只问“它强不强”，更要问“它在哪些任务上更像一个靠谱同事”

🚀【深度实测】智谱GLM-4.6V登场！9B模型支持本地部署，视觉能力全面SOTA，更有原生Function Calling加持！连模糊的 PDF 和潦草公式都能识别

01 全系升级：从端侧到云端的全能选手

02 硬核实测：真金不怕火炼

🛠️ 场景一：GLM-4.6V-Flash 本地部署初体验

💻 场景二：UI截图变代码（前端工程师狂喜？）

📝 场景三：极限OCR挑战（手写、模糊、公式）

🔍 场景四：视觉“找茬”与细粒度识别

📊 场景五：图文混排与论文解析

03 杀手锏：原生 Function Calling 实战

总结

🚀api:

🚀调用vLLM示例

Function Calling代码

🚀超越Qwen3？Ministral 3 14B模型支持256k上下文窗口！本地部署+深度实测！视觉能力太离谱了！Function Calling能力倍增！FP8 精度 + vLLM 推理速度快到飞起

先说最让我震惊的一点：256K 的上下文窗口

多模态能力：复杂图像也能精准理解

OCR 能力：模糊扫描件也能搞定

幻觉测试：不知道的事情，它真的不会瞎编

文档问答：长论文精准定位信息

Function Calling：智能客服系统实战

AutoGen 多智能体：协作效果出乎意料

写在最后

🚀Opus 4.5+Claude for Chrome彻底改写浏览器自动化！效果碾压ChatGPT Atlas，一个插件取代整个浏览器！让AI自动操作网页、填表格、生成图像，效率倍增！

先说说Opus 4.5这款模型

Chrome插件长什么样

实际测试：基础功能

实际测试：浏览器自动化

一些观察

🚀Nano Banana Pro全能实测！强得离谱！生成中文书法、换装、PS修图样样精通，连X光片骨折都能精准标注，这才是真正的全能图像AI！一个模型搞定所有图像需求，效果逆天到难辨真假！

一、 突破“恐怖谷”：极致的微观细节与文本渲染

二、 电商与摄影的革命：一致性与局部重绘

三、 视觉推理：AI 开始“看懂”这个世界

四、 创意的边界：从复刻到脑洞

五、 总结与展望

🚀开发者必看！深度测评谷歌Gemini 3 Pro + Antigravity IDE！对比Claude Sonnet 4.5前端编程巅峰对决！模型能力是否被高估了？

一、基准测试：纸面数据的辉煌战绩

令人瞩目的基准测试成绩

二、实战测试：前端编程能力的真实较量

测试一：SVG 绘制 MacBook Pro 键盘

测试二：太阳系八大行星公转动画

测试三：猫狗行走动画

测试四：3D 恐龙狩猎游戏（重头戏）

测试五：p5.js 自动寻路贪吃蛇

测试六：简化版 Minecraft 游戏

前端测试总结

三、Antigravity IDE：真实体验与功能探索

初印象：熟悉的界面，不一样的能力

令人惊喜的发现：免费使用 Claude Sonnet 4.5

实战测试一：开源项目分析

实战测试二：全栈背单词应用开发（重头戏）

Antigravity 的独特优势总结

Antigravity 存在的问题

四、综合评估：理性看待新技术

基准测试 vs 实际能力：差距依然存在

Antigravity：有亮点，但需打磨

对开发者的实用建议

多模态能力与生成式 UI

五、展望：保持理性，拥抱未来

技术进步是真实的

但也要保持清醒

一、突破“恐怖谷”：极致的微观细节与文本渲染

二、电商与摄影的革命：一致性与局部重绘

三、视觉推理：AI 开始“看懂”这个世界

四、创意的边界：从复刻到脑洞

五、总结与展望