less than 1 minute read

最近 AI 圈又有大动作。

Mistral AI 悄悄发布了全新的 Mistral 3 系列模型,除了旗舰版 Mistral Large 3,还带来了一个让我眼前一亮的”小弟”——Ministral 3 系列。

这个系列有 14B、8B、3B 三个版本,参数量不大,但能力却相当炸裂。

我花了一整天时间,把 Ministral 3 14B 这款模型从头到尾测了个遍。说实话,测完之后我有点懵:这真的只是一个 14B 的模型吗?

🚀本篇笔记所对应的视频:

🔥AI智能体相关视频


先说最让我震惊的一点:256K 的上下文窗口

你没看错,256K tokens。

这是什么概念?拿同级别的 Qwen 3 来对比,它的原生上下文窗口是 32K,扩展后也才 131K。而 Ministral 3 直接给你拉满到 256K,整整 8 倍的差距。

这意味着什么?意味着你可以一次性喂给它一整本书,或者几十轮的长对话历史,它都能稳稳接住。对于做知识库、长文档问答的场景来说,这简直是刚需。

而且这款模型还是 FP8 精度的,显存占用比同参数的模型更小,推理速度也更快。我用 vLLM 部署,一张 RTX A6000 就跑起来了,体验相当丝滑。


多模态能力:复杂图像也能精准理解

没错,Ministral 3 14B 是一款多模态模型,支持图像输入。

我专门找了一张”魔改版清明上河图”来测试。这张图乍一看是古画风格,但仔细看会发现里面藏了一些现代元素——比如一辆自行车、一艘摩托艇,甚至还有一只恐龙和一条鳄鱼。

我问它:图中的自行车和摩托艇在什么位置?

它的回答是:自行车位于左下角,靠近岸边;摩托艇位于左上角,在水面上,远离岸边的建筑和人群。

完全正确。

然后我加大难度,问它那只”怪兽”在哪里。它说:看起来像恐龙,位于图的右下角附近。还补了一句:这可能是为了展示一种奇幻或历史虚构的场景。

我继续追问:所以这幅画是古人画的吗?

它的回答让我有点惊喜。它说:这幅画并非完全由古人所绘,因为恐龙是现代科学概念,古人不了解恐龙的存在,这明显是现代创作的加入。

逻辑清晰,判断准确。

最后我让它找那条只露出上半身的鳄鱼,它也精准定位到了右侧中下方、几只小船附近的水域。一个 14B 的模型能有这样的视觉理解能力,确实超出我的预期。


OCR 能力:模糊扫描件也能搞定

接下来测试 OCR。

我先用了一张结构比较复杂的手写体图片,让它提取内容并保持原有格式。结果它不仅把内容都提取出来了,还自动用 Markdown 格式输出,标题、正文层次分明。

然后我故意找了一张非常模糊的扫描件,里面有中文段落、英文标题、表格,甚至还有一段代码。

它全都提取出来了。

表格结构保持得很好,代码还自动放进了代码块里。说实话,这个 OCR 效果放在一些专业工具里都不一定能做到这么干净。

当然,也有翻车的时候。我让它识别一张时钟图片上显示的时间,实际是 10 点整,它识别成了 3 点 15 分。看来时钟识别对这类模型来说还是个老大难问题。


幻觉测试:不知道的事情,它真的不会瞎编

现在很多模型最大的问题就是”一本正经地胡说八道”。所以我专门设计了三道陷阱题来测试。

第一题:我虚构了一个根本不存在的历史事件,问它相关细节。它直接回答说:这个事件可能存在误解,在文献中并没有相关记载。

第二题:我故意把一首诗的作者张冠李戴,问它是不是李白写的。它明确指出:这个作品并非李白所作。

第三题:我编了一个不存在的化学物质名称。它没有顺着我瞎编,而是说:您提到的这个物质可能是指某某(一个真实存在的类似物质)。

三道题全部识破,没有产生幻觉。这一点让我对它的可靠性印象加分不少。


文档问答:长论文精准定位信息

我用一篇很长的学术论文来测试它的文档问答能力,问了三个比较刁钻的技术问题:模型有多少个 Transformer 层、隐藏状态大小是多少、有多少个查询头和键值头。

它的回答:32 个 Transformer 层,隐藏状态大小 3072,24 个查询头,8 个键值头。

全部正确。

对于需要从海量文档中快速提取关键信息的场景,这个能力非常实用。


Function Calling:智能客服系统实战

为了测试它的工具调用能力,我搭建了一个进销存智能客服系统,定义了查询库存、记录入库出库、获取库存预警、销售统计、商品搜索等多个函数。

测试下来,它能准确理解用户意图,正确调用对应的函数,返回结果也很清晰。甚至还会主动给出库存健康分析和操作建议。

这种能力对于构建企业级智能客服、自动化工作流来说,价值非常大。


AutoGen 多智能体:协作效果出乎意料

最后我把它接入了微软的 AutoGen 框架,搭建了一个多智能体旅行规划系统。四个智能体分别扮演旅行规划师、本地向导、语言文化顾问和总结专家。

给它一个任务:规划 3 天的尼泊尔旅行。

四个智能体轮流发言,规划师给出详细的每日行程,向导补充当地特色景点和美食,语言顾问提供实用短语和文化禁忌,最后总结专家整合成完整方案。

整个过程流畅自然,输出的内容详细到让我怀疑它是不是真的去过尼泊尔。


写在最后

综合测试下来,Ministral 3 14B 这款模型给我的感觉就是:小身材,大能量。

256K 超长上下文、多模态图像理解、靠谱的 OCR、几乎不产生幻觉、强大的工具调用能力,再加上对中文的良好支持和 FP8 低显存占用——这些特性组合在一起,让它成为本地部署、私有化场景的绝佳选择。

如果你正在寻找一款性价比高、能力全面的开源模型,不妨试试这个”小钢炮”。

Comments