🚀Hermes Agent高级玩法之三大隐藏技能全公开!Ollama云端免费模型+Open WebUI美化界面+主副模型省Token配置,稳定性碾压小龙虾,一键部署免费云端模型完整教程,小白3分钟上手
🔥 本期内容全面公开 Hermes Agent 的三大进阶玩法:Ollama 一键集成免费云端模型、Open WebUI 美化交互界面、主副模型分工省 Token 配置。从零基础小白到高级玩家,都能找到适合自己的方案。
💡 方案一适合想要零配置、零成本快速上手的新手;方案二解决了聊天软件中使用 Hermes 的各种痛点,带来媲美 ChatGPT 的交互体验;方案三则是高阶省钱技巧——用主副模型分工策略大幅降低 Token 消耗。
一、方案一:Ollama 一键集成 Hermes Agent(免费云端模型)
1.1 适用场景
- 想在 Hermes Agent 中使用 免费模型
- 想在本地部署 开源模型
- 想要 一键部署配置,无需复杂手动安装
1.2 核心优势
Ollama 已内置 Hermes Agent,所以不需要单独部署 Hermes,只需要:
- 下载安装 Ollama
- 执行一条命令
- 傻瓜化完成 Hermes 的配置与运行
1.3 操作步骤
Step 1:下载并安装 Ollama
- 前往 Ollama 官方网站
- 根据自己的操作系统选择对应版本下载
- 安装完成后打开 Ollama
Step 2:查看集成项
打开 Ollama 后可以看到已集成:
- OpenClaw
- Claude Code
- Codex
- Hermes Agent
Step 3:复制启动命令并在终端执行
在 Ollama 界面复制 Hermes 的启动命令,回到终端运行,进入模型选项界面。
Step 4:选择模型
推荐模型列表中,前几个模型后缀带 Cloud,表示可通过 Ollama 云端使用(不占用本地资源)。
演示中选择的是:MiniMax M2.7
Step 5:登录账号
- 浏览器会弹出登录页面
- 随便登录一个账号
- 点击”连接”按钮
- 提示”设备连接成功”
Step 6:完成 Gateway 刷新与 App 连接
- 返回终端点击”继续”
- Hermes Agent Gateway 开始刷新
- 选择需要连接的 App(上期视频演示过连接到微信)
- 跳过可进入 Hermes Agent 终端聊天界面
Step 7:验证模型
提问”你是什么模型”,返回:MiniMax M2.7 云端版本 ✅
1.4 Ollama 方案总结
| 特性 | 说明 |
|---|---|
| ✅ 部署方式 | 一条命令完成全部配置 |
| ✅ 费用 | 免费使用云端模型额度 |
| ✅ 资源占用 | 零本地资源占用 |
| ✅ 上手难度 | 适合新手小白快速上手 |
二、方案二:Open WebUI + Hermes Agent(最佳交互体验)
2.1 为什么不推荐在聊天软件中使用 Hermes Agent
直接在聊天软件中使用 Hermes Agent 存在以下局限:
- 当 Hermes Agent 直接运行在电脑上时,再去用聊天工具访问显得比较麻烦
- 很多聊天工具不支持 Markdown 格式解析
- 单窗口下会产生非常多轮对话,难以管理历史
2.2 Open WebUI 的优势
Hermes Agent 原生支持 Open WebUI,通过这种方式可以获得以下体验:
- ✅ 像使用 ChatGPT 一样,每次会话记录保存在左侧侧边栏
- ✅ 可随时查看之前聊过的内容
- ✅ 真正解析 Markdown 格式
- ✅ 支持 流式输出
- ✅ 代码展示在独立代码块中,方便复制
- ✅ 支持 在线运行代码(如 Python 冒泡算法)
- ✅ 自动生成相关问题推荐,点击即可继续提问
- ✅ 支持发音、修改、复制、重新生成回答
- ✅ 可以 搜索对话历史(示例:搜索”冒泡算法”可快速定位之前的对话)
- ✅ 支持上传文件、截图、引用网页、引用笔记、引用知识库、引用其他对话
2.3 完整部署步骤
Step 1:安装 Open WebUI
按照 Open WebUI 官方仓库的安装命令进行安装,复制官方给出的安装命令,在终端直接执行即可。
Step 2:修改 Hermes Agent 配置文件
用编辑器(Antigravity / 记事本 / VS Code 均可)打开 Hermes Agent 配置文件,添加两个参数:
| 参数 | 作用 |
|---|---|
| 启用 API 服务参数 | 为 Hermes Agent 启用 API 服务 |
| API 密码参数 | 为 API 设置访问密码(可自定义) |
保存配置文件即可。
💡 懒人方案:也可以直接让 Codex / Claude Code 等任何支持操作本地文件的 Agent,用自然语言描述需求(告诉它配置文件位置和要添加的两个参数),自动完成配置。
Step 3:重启 Hermes Gateway
在终端执行重启命令,让配置生效。
Step 4:启动 Open WebUI
复制 Open WebUI 官方的启动命令,在终端执行启动。
Step 5:打开 Open WebUI 界面
浏览器访问:localhost:8080
Step 6:首次配置连接
- 点击左下角用户名
- 点击 设置
- 点击 管理员设置
- 点击 连接
- 点击 加号(+)添加连接
配置项填写:
| 字段 | 填写内容 |
|---|---|
| URL | http://localhost:8642/v1(本地 Hermes Agent,端口 8642,后缀 /v1 表示兼容 OpenAI API 的接口) |
| 认证 | 刚才在配置文件中设置的 API 密码 |
点击 保存。
Step 7:开始使用
- 新开一个对话
- 在模型选择下拉中选中 Hermes Agent
- 直接在对话窗口与 Hermes Agent 交互
验证测试:提问”你可以调用哪些 Skill” → 返回 118 个 Skill ✅
2.4 手机端访问(局域网方案)
可以直接在手机上通过 Open WebUI 与电脑上的 Hermes Agent 交互:
- 手机浏览器输入:
http://<电脑IP地址>:8080 - 登录 Open WebUI 账号
- 可以设置系统颜色(如浅色模式)
- 左侧可看到所有对话历史
- 支持新开对话、流式输出
手机端效果:
- 显示效果非常不错
- 支持流式输出
- 支持所有桌面端的高级功能(文件上传、截图、知识库引用等)
2.5 公网访问(进阶)
如果需要在 公网环境 通过手机访问本机 Hermes Agent:
- 可用 ngrok 进行内网穿透
- 也可用其他开源项目进行内网穿透
三、方案三:主副模型分工(省 Token 核心技巧)
这是最高阶的玩法——通过配置 MiniMax-CN 主模型 + Gemini 副模型,让核心对话走高质量模型,辅助任务走免费/低价模型,从而大幅节省 Token 消耗。
步骤 0:备份配置
cp ~/.hermes/config.yaml ~/.hermes/config.yaml.bak-$(date +%Y%m%d-%H%M%S)
步骤 1:配置环境变量
编辑 ~/.hermes/.env,确保以下三个 key 存在:
MINIMAX_CN_API_KEY=<你的 MiniMax 国内 key>
GOOGLE_API_KEY=<你的 Google AI Studio key>
OPENAI_API_KEY=<你的 OpenAI key>
步骤 2:主模型配置
编辑 ~/.hermes/config.yaml,将 model: 块改为:
model:
api_key: env:MINIMAX_CN_API_KEY
base_url: https://api.minimaxi.com/anthropic
default: MiniMax-M2.7
provider: minimax-cn
要点:
base_url不要带/v1(SDK 自动追加)- 模型 ID 大小写敏感:
MiniMax-M2.7 provider必须是minimax-cn(国内端点)
步骤 3:副模型配置(auxiliary)
auxiliary: 块保持如下结构,全部走 Gemini 2.5 Flash(免费额度大、速度快):
auxiliary:
approval:
provider: gemini
model: gemini-2.5-flash
timeout: 30
compression:
provider: gemini
model: gemini-2.5-flash
timeout: 120
flush_memories:
provider: gemini
model: gemini-2.5-flash
timeout: 30
mcp:
provider: gemini
model: gemini-2.5-flash
timeout: 30
session_search:
provider: gemini
model: gemini-2.5-flash
timeout: 30
skills_hub:
provider: gemini
model: gemini-2.5-flash
timeout: 30
title_generation:
provider: gemini
model: gemini-2.5-flash
timeout: 30
vision:
provider: gemini
model: gemini-2.5-flash
timeout: 30
download_timeout: 30
web_extract:
provider: gemini
model: gemini-2.5-flash
timeout: 360
步骤 4:compression 调优
compression:
enabled: true
protect_last_n: 20
target_ratio: 0.2
threshold: 0.5
⚠️ 不要在这里放
summary_model/summary_provider/summary_base_url,模型选择统一在auxiliary.compression中配置。
步骤 5:custom_providers(可选)
custom_providers:
- api_key: ""
api_mode: chat_completions
base_url: https://generativelanguage.googleapis.com/v1beta
name: google-ai
- api_key: ""
api_mode: anthropic_messages
base_url: https://api.minimaxi.com/anthropic
name: minimax-custom
要点:
name不能与内置 provider 同名api_mode必须与base_url端点格式一致:/anthropic→anthropic_messages/v1→chat_completions
步骤 6:MCP servers API key
所有 mcp_servers.*.env 下的 key 都用 env: 前缀引用,不要写明文:
mcp_servers:
gbrain:
command: gbrain
args: [serve]
env:
OPENAI_API_KEY: env:OPENAI_API_KEY
connect_timeout: 15
timeout: 30
步骤 7:验证配置
# YAML 语法检查
python3 -c "import yaml; yaml.safe_load(open('$HOME/.hermes/config.yaml'))" && echo OK
# 配置诊断
hermes doctor
# 功能测试
hermes chat -q "Say exactly 'pong' and nothing else." -Q
期望输出:
session_id: ...
pong
回滚方案
如果配置出现问题,随时可以回滚:
cp ~/.hermes/config.yaml.bak-<时间戳> ~/.hermes/config.yaml
总结
| 方案 | 适合人群 | 核心优势 | 难度 |
|---|---|---|---|
| Ollama 一键集成 | 新手小白 | 零配置、免费模型、3分钟上手 | ⭐ |
| Open WebUI | 日常重度使用 | ChatGPT 级交互体验、多端访问 | ⭐⭐ |
| 主副模型分工 | 高阶玩家 | 大幅省 Token、灵活配置 | ⭐⭐⭐ |
三个方案可以组合使用:用 Ollama 快速启动 + Open WebUI 美化界面 + 主副模型分工省钱,打造最强 Hermes Agent 使用体验!
Comments