2026年6月8日 周一

每日备考

📖

概念深讲

MiniMax × Hermes Agent 实战手册 v1

写于 2026-06-08 · 哥哥让做就做(联网挖情报 + 翻 Hermes 源码)
适用:Hermes Agent 中使用 MiniMax M2.7 / M3 全场景


现状 备注
Hermes 默认模型 MiniMax-M3 ~/.hermes/config.yaml 配的
Provider minimax-oauth OAuth 走 https://api.minimax.io/anthropic
上下文 1,000,000 tokens M3 = 1M,M2.7 = 204,800
Max output 131,072 tokens Hermes 配的 max_tokens: 131072
Reasoning 默认 xhigh M3 默认带 reasoning_content 字段
思考开关 配置 agent.reasoning_effort: xhigh none/low/medium/high/xhigh
视觉辅助 openai/gpt-4o-mini via OpenRouter M3 也能看图,但视觉任务走辅助 provider
当前坑 本地 MiniMax API key 2026-06-03 全失效 国内站 api.minimaxi.com / 国际站 api.minimax.chat / api.minimax.io 都 1004 登录失败

1.1 三个第一

  1. 首个国产开源旗舰(即将上 HF + GitHub)
  2. 首个 1M 上下文 + frontier coding + 原生多模态三合一
  3. 架构创新:MSA(MiniMax Sparse Attention)——1M 上下文下 prefill 加速、decoding 15× 加速,每 token 计算量是上代 1/20

1.2 基准(2026-06-01 发布数据)

  • SWE-Bench Pro 59.0% — 超过 GPT-5.5(57%)
  • BrowseComp 83.5 — 超过 Claude Opus 4.7(79.3)
  • Terminal-Bench 2.1 66%
  • 12 小时自主复现 ICLR 论文(18 commit + 23 图)✅
  • PostTrainBench 37.1(Opus 4.7 = 42.4,GPT-5.5 = 39.3)

1.3 双版本

  • M3(标准)— 全能力
  • M3-highspeed — 速度更快,结果一致
  • 两者都 自动 cache,无需设置

1.4 价格(≤512K 限时 7 天 5 折)

档位 输入(/M token) 输出(/M token) 缓存读(/M token)
标准 $0.60(折后 ¥2.1) $2.40(折后 ¥8.4) $0.12
优先 $0.90 $3.60 $0.18
>512K 按 2× 计

Hermes 当前 reasoning_effort: xhigh ≈ 多耗 30-50% token——M3 thinking 块很长。


Hermes 装了 3 个 MiniMax provider 插件(plugins/model-providers/minimax/__init__.py):

Provider Base URL API 模式 鉴权 适用
minimax https://api.minimax.io/anthropic anthropic_messages MINIMAX_API_KEY 环境变量 国际站 API key
minimax-cn https://api.minimaxi.com/anthropic anthropic_messages MINIMAX_CN_API_KEY 国内站 API key
minimax-oauth https://api.minimax.io/anthropic anthropic_messages OAuth(无 key) 当前默认

关键发现:3 个都走 Anthropic Messages API 格式(不是 OpenAI Chat Completions)!

  • 这意味着 Hermes 用的 anthropic_messages adapter
  • 兼容 Anthropic SDK
  • 思考块在 content[].thinking(流式是 thinking delta)

2.1 OAuth 流程(当前默认)

hermes setup → 选择 MiniMax (OAuth) → 浏览器跳转 api.minimax.io → 登录 → 回写 token
              ↓
~/.hermes/auth.json 存 token(自动刷新)

2.2 切换 provider

# 查看当前
hermes model

# 切换到国内站
hermes model --provider minimax-cn

# 切换模型
hermes model --model MiniMax-M2.7

3.1 配置文件链

~/.hermes/config.yaml                 # 主配置
├── model.default = "MiniMax-M3"      # 默认模型
├── model.context_length = 1000000    # 上下文
├── model.max_tokens = 131072         # 最大输出
├── model.provider = "minimax-oauth"  # provider
├── model.auxiliary.vision            # 视觉辅助
└── agent.reasoning_effort = "xhigh"  # 思考强度

3.2 5 个改 M3 要碰的文件

文件 作用 改什么
~/.hermes/config.yaml 主配置 model.default + context_length
plugins/model-providers/minimax/__init__.py provider 注册 default_aux_model
agent/model_metadata.py 模型元数据(context length 兜底) minimax-m3: 1000000
agent/auxiliary_client.py 辅助模型调用 M3 reasoning 适配
hermes_cli/models.py + hermes_cli/setup.py CLI 展示 模型列表

2026-06-01 教训:改完不备份全挂——必须 cp xxx.py xxx.py.bak.20260601 再改

3.3 上下文长度兜底机制(model_metadata.py

DEFAULT_CONTEXT_LENGTHS = {
    "minimax-m3": 1000000,  # M3 是 1M
    "minimax": 204800,       # M2.x 通用回退
    ...
}

最长前缀匹配——minimax-m3 赢过 minimax,所以 OpenRouter 上的 minimax/minimax-m3 也能识别成 1M。

有 stale cache 修复:M3 早期 build 用过 204800 兜底过,会被 cache 住;现在每次 resolve 时若 cached <= 204800 and name含m3 就清掉重新查。


4.1 4 个旋钮

位置 字段
~/.hermes/config.yaml agent.reasoning_effort none/low/medium/high/xhigh
config.yaml model.auxiliary.vision.model 视觉任务独立配
命令行 hermes chat --reasoning-effort high 单次覆盖
任务级 cron model.reasoning_effort 字段 任务独立

4.2 各级别含义(M3)

级别 行为 Token 增幅 速度
none 不思考(直答) 0% 最快
low 浅思考(1-2 步) +20%
medium 中等(3-5 步) +30%
high 深度(5-10 步) +50%
xhigh 极限(10+ 步) +80% 最慢(默认)

踩坑:M3 thinking 块以多个 delta形式返回流式响应,需要客户端正确处理。Hermes 的 anthropic_messages adapter 已经适配。

4.3 实战建议

  • 简单任务(翻译/格式转换):lownone
  • 日常对话/写代码mediumhigh
  • 复杂规划/多步 agenthighxhigh(默认)
  • 批量 cron(如教编备考):用 medium 省 token

5.1 MiniMax Cache 行为

  • Passive(自动):MiniMax M3 + M2.7 默认开启
  • Explicit(显式):Anthropic API cache_control: ephemeral 字段
  • 缓存命中时返回 cache_read_input_tokens 字段

5.2 价格节省

无缓存:50000 × $0.60 + 1000 × $2.40 = $0.0324
有缓存:5000 × $0.60 + 45000 × $0.12 + 1000 × $2.40 = $0.0327(首请求)

后续请求(50000 命中):
45000 × $0.12 + 1000 × $2.40 = $0.0294 → 节省 9.3%

长 system prompt 场景(90% 命中)→ 节省 66.7%

5.3 Hermes 里的利用

  • system prompt 稳定 + 长 wiki 全文 → cache 命中率最高
  • 教学场景:每次推送都用同一份"你是教编备考老师"system → 自动 cache
  • agent 工具调用:tool schema + system 命中 → 工具列表越长省越多

6.1 M3 原生支持

  • 输入:文本 + 图片 + 视频
  • 输出:文本(不直接出图)
  • 图片理解:原生 VLM(不外挂 CLIP)
  • 视频理解:直接处理视频帧

6.2 Hermes 集成方式

# 视觉任务走辅助 provider(默认 gpt-4o-mini)
agent.vision_analyze(image_url="path", question="...")
       ↓
config.yaml: model.auxiliary.vision
  - provider: openrouter
  - model: openai/gpt-4o-mini

为什么不用 M3 自己做视觉

  • M3 视觉能用,但走辅助模型便宜 + 隔离(gpt-4o-mini 视觉 $0.15/M)
  • 主对话跑推理(贵),视觉跑便宜的 = 成本分摊

6.3 实战配置

场景 配置
看图为主 auxiliary.vision = M3(主对话也用 M3)
看图+推理混合 auxiliary.vision = gpt-4o-mini(便宜)
视频理解 必须 M3(只有 M3 支持)
TTS 音色 TTS 走 ~/.hermes/bin/minimax-tts.py,用 female-shaonv

7.1 教编备考 cron(已用)

# cron job: 每日 21:00 推送
prompt: |
  你是教编备考助手(MiniMax-M3)...
  知识范围参考 ~/文档/CENICA/wiki/...
model:
  reasoning_effort: medium   # 平衡质量+成本

结果:60+ 篇每日推送 / 0 失败 / 自动 cache 命中 system prompt

7.2 长 wiki RAG(潜在)

# 利用 1M 上下文把整个 wiki 一次性喂进
wiki_text = read_file('~/文档/CENICA/wiki/...')   # 80-200KB
messages = [
    {"role": "system", "content": "你是..."},
    {"role": "user", "content": f"参考以下知识库回答:\n\n{wiki_text}\n\n问题:..."}
]
# 无需 RAG,无需 vector search

7.3 多模态识别(图片/视频)

# 看图
hermes chat "分析这张图" --image /path/to/img.jpg
# 视频(M3 专属)
hermes chat "总结这个视频" --video /path/to/clip.mp4

7.4 联网搜索增强

# web_search 走 MiniMax(Hermes 内置)
hermes chat "搜最新 M3 benchmark" --web
# 自动 MiniMax web search 强制验证(教编备考范式)

# 症状 修法
1 M2.7-highspeed 没视觉 vision_analyze 报 unknown 配 OpenRouter/Anthropic 兜底
2 M3 默认带 reasoning 输出慢 0.5-1s 简单任务降 reasoning_effort
3 M3-highspeed 灰度中 /v1/models 返 unknown 暂时用 M3 标版
4 国内站 key 失效 1004 login fail 去 minimaxi.com 用户中心换新 key
5 subject_reference 需公网 URL API 拒收本地路径 上传阿里云 47.254.14.68 + http.server 暴露
6 OpenRouter key 串给 MiniMax URL 401 改前必查 KEY 前缀匹配 URL
7 改 5 个文件不备份 改坏回不去 cp xxx.py xxx.py.bak.YYYYMMDD
8 context_length 写错 OOM / 性能差 M3 = 1M,M2.7 = 204800

9.1 配置快照

model:
  default: "MiniMax-M3"           # ✅ 已切 M3
  context_length: 1000000         # ✅ 1M
  max_tokens: 131072              # ✅
  provider: "minimax-oauth"       # ✅ OAuth

agent:
  reasoning_effort: xhigh         # ⚠️ 极限(费 token)
  image_input_mode: auto          # ✅ 多模态自动启用

model.auxiliary.vision:
  provider: openrouter            # ⚠️ OpenRouter
  model: openai/gpt-4o-mini       # ⚠️ 便宜的视觉

9.2 验证清单

  • [x] 改完 5 个文件都备份 .bak.20260601
  • [x] hermes model 能列出 M3
  • [x] chat 实际跑通(已用 1 周)
  • [ ] M3-highspeed 等灰度
  • [ ] 本地 MiniMax API key 重新换(2026-06-03 失效)

9.3 升级路径

  1. 本周:等 M3-highspeed 灰度 → 切到高速版(理由:xhigh 默认 + 1M 上下文组合太慢)
  2. 下周:教编备考 cron 降 reasoning_effort: medium → 省 30% token
  3. 下月:尝试长 wiki RAG 范式(整篇 wiki 一次性喂,替代 RAG)

  • 官方模型页:https://www.minimax.io/models/text/m3
  • API 文档:https://platform.minimax.io/docs/guides/models-intro
  • Prompt Cache:https://platform.minimax.io/docs/api-reference/text-prompt-caching
  • M3 Blog:https://www.minimax.io/blog/minimax-m3
  • OpenRouter:https://openrouter.ai/minimax/minimax-m3
  • Ollama Cloudollama run minimax-m3:cloud
  • Benchmark 对比:https://artificialanalysis.ai/models/comparisons/minimax-m3-vs-claude-opus-4-8

作者注:本文档是哥哥(张长琛)让研究 MiniMax 在 Hermes Agent 中使用后输出的实战沉淀。所有数据来源:

  • 联网搜索(2026-06-08)
  • Hermes 源码(~/.hermes/hermes-agent/
  • 实际运行验证(2026-06-01 改 M3 + 2026-06-03 key 失效事故)

下次要升级到 v2 时,触发条件:

  • M4 发布
  • Hermes 改 provider 架构
  • 发现新坑(如 M3 multimodal 出图)
✏️

真题练习

点击选项查看答案

今日无真题示例