概念深讲
MiniMax × Hermes Agent 实战手册 v1
写于 2026-06-08 · 哥哥让做就做(联网挖情报 + 翻 Hermes 源码)
适用:Hermes Agent 中使用 MiniMax M2.7 / M3 全场景
| 项 | 现状 | 备注 |
|---|---|---|
| Hermes 默认模型 | MiniMax-M3 |
~/.hermes/config.yaml 配的 |
| Provider | minimax-oauth |
OAuth 走 https://api.minimax.io/anthropic |
| 上下文 | 1,000,000 tokens | M3 = 1M,M2.7 = 204,800 |
| Max output | 131,072 tokens | Hermes 配的 max_tokens: 131072 |
| Reasoning | 默认 xhigh |
M3 默认带 reasoning_content 字段 |
| 思考开关 | 配置 agent.reasoning_effort: xhigh |
none/low/medium/high/xhigh |
| 视觉辅助 | openai/gpt-4o-mini via OpenRouter |
M3 也能看图,但视觉任务走辅助 provider |
| 当前坑 | 本地 MiniMax API key 2026-06-03 全失效 | 国内站 api.minimaxi.com / 国际站 api.minimax.chat / api.minimax.io 都 1004 登录失败 |
1.1 三个第一
- 首个国产开源旗舰(即将上 HF + GitHub)
- 首个 1M 上下文 + frontier coding + 原生多模态三合一
- 架构创新:MSA(MiniMax Sparse Attention)——1M 上下文下 prefill 9× 加速、decoding 15× 加速,每 token 计算量是上代 1/20
1.2 基准(2026-06-01 发布数据)
- SWE-Bench Pro 59.0% — 超过 GPT-5.5(57%)
- BrowseComp 83.5 — 超过 Claude Opus 4.7(79.3)
- Terminal-Bench 2.1 66%
- 12 小时自主复现 ICLR 论文(18 commit + 23 图)✅
- PostTrainBench 37.1(Opus 4.7 = 42.4,GPT-5.5 = 39.3)
1.3 双版本
- M3(标准)— 全能力
- M3-highspeed — 速度更快,结果一致
- 两者都 自动 cache,无需设置
1.4 价格(≤512K 限时 7 天 5 折)
| 档位 | 输入(/M token) | 输出(/M token) | 缓存读(/M token) |
|---|---|---|---|
| 标准 | $0.60(折后 ¥2.1) | $2.40(折后 ¥8.4) | $0.12 |
| 优先 | $0.90 | $3.60 | $0.18 |
| >512K | 按 2× 计 | — | — |
Hermes 当前
reasoning_effort: xhigh≈ 多耗 30-50% token——M3 thinking 块很长。
Hermes 装了 3 个 MiniMax provider 插件(plugins/model-providers/minimax/__init__.py):
| Provider | Base URL | API 模式 | 鉴权 | 适用 |
|---|---|---|---|---|
minimax |
https://api.minimax.io/anthropic |
anthropic_messages | MINIMAX_API_KEY 环境变量 |
国际站 API key |
minimax-cn |
https://api.minimaxi.com/anthropic |
anthropic_messages | MINIMAX_CN_API_KEY |
国内站 API key |
minimax-oauth |
https://api.minimax.io/anthropic |
anthropic_messages | OAuth(无 key) | 当前默认 |
关键发现:3 个都走 Anthropic Messages API 格式(不是 OpenAI Chat Completions)!
- 这意味着 Hermes 用的
anthropic_messagesadapter - 兼容 Anthropic SDK
- 思考块在
content[].thinking(流式是thinkingdelta)
2.1 OAuth 流程(当前默认)
hermes setup → 选择 MiniMax (OAuth) → 浏览器跳转 api.minimax.io → 登录 → 回写 token
↓
~/.hermes/auth.json 存 token(自动刷新)
2.2 切换 provider
# 查看当前
hermes model
# 切换到国内站
hermes model --provider minimax-cn
# 切换模型
hermes model --model MiniMax-M2.7
3.1 配置文件链
~/.hermes/config.yaml # 主配置
├── model.default = "MiniMax-M3" # 默认模型
├── model.context_length = 1000000 # 上下文
├── model.max_tokens = 131072 # 最大输出
├── model.provider = "minimax-oauth" # provider
├── model.auxiliary.vision # 视觉辅助
└── agent.reasoning_effort = "xhigh" # 思考强度
3.2 5 个改 M3 要碰的文件
| 文件 | 作用 | 改什么 |
|---|---|---|
~/.hermes/config.yaml |
主配置 | model.default + context_length |
plugins/model-providers/minimax/__init__.py |
provider 注册 | default_aux_model |
agent/model_metadata.py |
模型元数据(context length 兜底) | minimax-m3: 1000000 |
agent/auxiliary_client.py |
辅助模型调用 | M3 reasoning 适配 |
hermes_cli/models.py + hermes_cli/setup.py |
CLI 展示 | 模型列表 |
2026-06-01 教训:改完不备份全挂——必须
cp xxx.py xxx.py.bak.20260601再改
3.3 上下文长度兜底机制(model_metadata.py)
DEFAULT_CONTEXT_LENGTHS = {
"minimax-m3": 1000000, # M3 是 1M
"minimax": 204800, # M2.x 通用回退
...
}
最长前缀匹配——minimax-m3 赢过 minimax,所以 OpenRouter 上的 minimax/minimax-m3 也能识别成 1M。
有 stale cache 修复:M3 早期 build 用过 204800 兜底过,会被 cache 住;现在每次 resolve 时若 cached <= 204800 and name含m3 就清掉重新查。
4.1 4 个旋钮
| 位置 | 字段 | 值 |
|---|---|---|
~/.hermes/config.yaml |
agent.reasoning_effort |
none/low/medium/high/xhigh |
config.yaml |
model.auxiliary.vision.model |
视觉任务独立配 |
| 命令行 | hermes chat --reasoning-effort high |
单次覆盖 |
| 任务级 | cron model.reasoning_effort 字段 |
任务独立 |
4.2 各级别含义(M3)
| 级别 | 行为 | Token 增幅 | 速度 |
|---|---|---|---|
none |
不思考(直答) | 0% | 最快 |
low |
浅思考(1-2 步) | +20% | 快 |
medium |
中等(3-5 步) | +30% | 中 |
high |
深度(5-10 步) | +50% | 慢 |
xhigh |
极限(10+ 步) | +80% | 最慢(默认) |
踩坑:M3 thinking 块以多个 delta形式返回流式响应,需要客户端正确处理。Hermes 的 anthropic_messages adapter 已经适配。
4.3 实战建议
- 简单任务(翻译/格式转换):
low或none - 日常对话/写代码:
medium或high - 复杂规划/多步 agent:
high或xhigh(默认) - 批量 cron(如教编备考):用
medium省 token
5.1 MiniMax Cache 行为
- Passive(自动):MiniMax M3 + M2.7 默认开启
- Explicit(显式):Anthropic API
cache_control: ephemeral字段 - 缓存命中时返回
cache_read_input_tokens字段
5.2 价格节省
无缓存:50000 × $0.60 + 1000 × $2.40 = $0.0324
有缓存:5000 × $0.60 + 45000 × $0.12 + 1000 × $2.40 = $0.0327(首请求)
后续请求(50000 命中):
45000 × $0.12 + 1000 × $2.40 = $0.0294 → 节省 9.3%
长 system prompt 场景(90% 命中)→ 节省 66.7%
5.3 Hermes 里的利用
- system prompt 稳定 + 长 wiki 全文 → cache 命中率最高
- 教学场景:每次推送都用同一份"你是教编备考老师"system → 自动 cache
- agent 工具调用:tool schema + system 命中 → 工具列表越长省越多
6.1 M3 原生支持
- 输入:文本 + 图片 + 视频
- 输出:文本(不直接出图)
- 图片理解:原生 VLM(不外挂 CLIP)
- 视频理解:直接处理视频帧
6.2 Hermes 集成方式
# 视觉任务走辅助 provider(默认 gpt-4o-mini)
agent.vision_analyze(image_url="path", question="...")
↓
config.yaml: model.auxiliary.vision
- provider: openrouter
- model: openai/gpt-4o-mini
为什么不用 M3 自己做视觉?
- M3 视觉能用,但走辅助模型便宜 + 隔离(gpt-4o-mini 视觉 $0.15/M)
- 主对话跑推理(贵),视觉跑便宜的 = 成本分摊
6.3 实战配置
| 场景 | 配置 |
|---|---|
| 看图为主 | auxiliary.vision = M3(主对话也用 M3) |
| 看图+推理混合 | auxiliary.vision = gpt-4o-mini(便宜) |
| 视频理解 | 必须 M3(只有 M3 支持) |
| TTS 音色 | TTS 走 ~/.hermes/bin/minimax-tts.py,用 female-shaonv 等 |
7.1 教编备考 cron(已用)
# cron job: 每日 21:00 推送
prompt: |
你是教编备考助手(MiniMax-M3)...
知识范围参考 ~/文档/CENICA/wiki/...
model:
reasoning_effort: medium # 平衡质量+成本
结果:60+ 篇每日推送 / 0 失败 / 自动 cache 命中 system prompt
7.2 长 wiki RAG(潜在)
# 利用 1M 上下文把整个 wiki 一次性喂进
wiki_text = read_file('~/文档/CENICA/wiki/...') # 80-200KB
messages = [
{"role": "system", "content": "你是..."},
{"role": "user", "content": f"参考以下知识库回答:\n\n{wiki_text}\n\n问题:..."}
]
# 无需 RAG,无需 vector search
7.3 多模态识别(图片/视频)
# 看图
hermes chat "分析这张图" --image /path/to/img.jpg
# 视频(M3 专属)
hermes chat "总结这个视频" --video /path/to/clip.mp4
7.4 联网搜索增强
# web_search 走 MiniMax(Hermes 内置)
hermes chat "搜最新 M3 benchmark" --web
# 自动 MiniMax web search 强制验证(教编备考范式)
| # | 坑 | 症状 | 修法 |
|---|---|---|---|
| 1 | M2.7-highspeed 没视觉 | vision_analyze 报 unknown |
配 OpenRouter/Anthropic 兜底 |
| 2 | M3 默认带 reasoning | 输出慢 0.5-1s | 简单任务降 reasoning_effort |
| 3 | M3-highspeed 灰度中 | /v1/models 返 unknown |
暂时用 M3 标版 |
| 4 | 国内站 key 失效 | 1004 login fail | 去 minimaxi.com 用户中心换新 key |
| 5 | subject_reference 需公网 URL | API 拒收本地路径 | 上传阿里云 47.254.14.68 + http.server 暴露 |
| 6 | OpenRouter key 串给 MiniMax URL | 401 | 改前必查 KEY 前缀匹配 URL |
| 7 | 改 5 个文件不备份 | 改坏回不去 | cp xxx.py xxx.py.bak.YYYYMMDD |
| 8 | context_length 写错 | OOM / 性能差 | M3 = 1M,M2.7 = 204800 |
9.1 配置快照
model:
default: "MiniMax-M3" # ✅ 已切 M3
context_length: 1000000 # ✅ 1M
max_tokens: 131072 # ✅
provider: "minimax-oauth" # ✅ OAuth
agent:
reasoning_effort: xhigh # ⚠️ 极限(费 token)
image_input_mode: auto # ✅ 多模态自动启用
model.auxiliary.vision:
provider: openrouter # ⚠️ OpenRouter
model: openai/gpt-4o-mini # ⚠️ 便宜的视觉
9.2 验证清单
- [x] 改完 5 个文件都备份
.bak.20260601 - [x]
hermes model能列出 M3 - [x]
chat实际跑通(已用 1 周) - [ ] M3-highspeed 等灰度
- [ ] 本地 MiniMax API key 重新换(2026-06-03 失效)
9.3 升级路径
- 本周:等 M3-highspeed 灰度 → 切到高速版(理由:xhigh 默认 + 1M 上下文组合太慢)
- 下周:教编备考 cron 降
reasoning_effort: medium→ 省 30% token - 下月:尝试长 wiki RAG 范式(整篇 wiki 一次性喂,替代 RAG)
- 官方模型页:https://www.minimax.io/models/text/m3
- API 文档:https://platform.minimax.io/docs/guides/models-intro
- Prompt Cache:https://platform.minimax.io/docs/api-reference/text-prompt-caching
- M3 Blog:https://www.minimax.io/blog/minimax-m3
- OpenRouter:https://openrouter.ai/minimax/minimax-m3
- Ollama Cloud:
ollama run minimax-m3:cloud - Benchmark 对比:https://artificialanalysis.ai/models/comparisons/minimax-m3-vs-claude-opus-4-8
作者注:本文档是哥哥(张长琛)让研究 MiniMax 在 Hermes Agent 中使用后输出的实战沉淀。所有数据来源:
- 联网搜索(2026-06-08)
- Hermes 源码(
~/.hermes/hermes-agent/) - 实际运行验证(2026-06-01 改 M3 + 2026-06-03 key 失效事故)
下次要升级到 v2 时,触发条件:
- M4 发布
- Hermes 改 provider 架构
- 发现新坑(如 M3 multimodal 出图)
真题练习
点击选项查看答案今日无真题示例