免费玩转 Modal GLM-5.1：从限流煎熬到代码写作的畅快之路

先说一句心里话：当 Claude Code 的 429 错误像警报器一样不停响起，真正的尴尬不是代码停下来，而是手里那杯刚泡好的咖啡已经冷了。很多人都有这种体会：想要把 AI 当成写代码的伴侣，结果却被平台的限流卡住。好在最近 Modal 把智谱的 GLM-5.1 挂上了免费 API，直接把“限流的痛”给解了。下面把整个过程拆开聊聊，让你不用再为“额度用光”而抓狂。

⚡️ 为什么 Modal + GLM-5.1 是最香的组合

不限 Token，总量不封顶——只限制每秒的请求次数（大概 3–5 QPS），只要不开十几个并发窗口，一天玩儿下来根本不会碰到额度上限。
兼容 OpenAI 协议——几乎所有的 AI 编码工具（Claude Code、OpenClaw、OpenCode）都能直接对接，只要把地址改一下。
零门槛——注册完直接拿 Key，不需要绑卡或先充钱，真正做到“随点随用”。

对每天要消耗几千万 Token 的重度用户来说，这简直是“主力卡 + 备用卡”套装，省下的花费可以直接投入到硬件或业务上。

🛠️ 5 分钟搞定账号和 Key

打开 Modal 官网，点右上角的 "Sign Up"，强烈推荐用 GitHub 或 Google 快速登录。邮箱注册需要人工审核，等上几个小时可不划算。
登录后直接访问 GLM-5.1 专属页面（地址在官网的 banner 里），左侧点 "Create token"，给它起个易辨认的名字，比如 "claude-code"，复制弹出来的长串 Key 并马上保存到密码管理器。
同时把页面上示例的 baseUrl、model（通常是 glm-5-endpoint）记下来，后面配置会用到。

记住：Key 只弹一次，一旦关闭就找不回来了，务必在生成后立即备份。

🔀 把 GLM-5.1 接进 Claude Code：需要一个小网关

Claude Code 用的是 Anthropic 协议（/v1/messages），而 Modal 提供的是 OpenAI 协议（/v1/chat/completions）。二者直接对接会报错，于是需要一个“翻译官”。Modal 官方已经写好一个名叫 modal-jazz 的网关，只要几行命令就能跑起来：

git clone https://github.com/modal-labs/modal-jazz.git
cd modal-jazz/frontends/claude
pip install -r requirements.txt
export MODAL_API_KEY="你的 Key"
python app.py   # 默认监听 127.0.0.1:8000

这个网关的工作原理其实很直白：把 Claude Code 发来的 Anthropic 格式的请求转成 OpenAI 格式，转发到 Modal，然后再把 OpenAI 的返回转换回 Anthropic 的流式 SSE。代码只有几百行，几乎不占内存，笔记本上长期跑着也不吃资源。

🔧 配置 Claude Code 指向本地网关

在终端里把环境变量改成指向本地的 127.0.0.1:8000，并把模型名改成上面记下的 glm-5-endpoint 就可以了：

export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_AUTH_TOKEN="随便填一个字符串"
export ANTHROPIC_MODEL="glm-5-endpoint"

重新打开一个终端，跑一次 claude 命令，随便让它写个 Fibonacci。只要 Modal 控制台的请求计数+1，说明整个链路已经通了。

🧩 OpenClaw、OpenCode 的简易接入

这两个工具本身就走 OpenAI 协议，根本不需要网关，直接改配置文件的 url、api_key、model 三项即可：

{
  "llm_backend": {
    "url": "https://api.us-west-2.modal.direct/v1",
    "api_key": "你的 Modal Key",
    "model": "glm-5-endpoint"
  }
}

保存后再跑一次任务，看到 Modal 控制台计数上升，说明成功。

💡 实际使用感受 & 常见坑

速度：首 Token 延迟 500‑800ms，比 Claude Sonnet 稍慢，但每秒能吞下 40‑60 token，写几百行代码基本感受不到卡顿。
代码能力：对常规的 CRUD、SQL、单元测试基本没问题；跨文件的大规模重构偶尔会漏掉细节，需要人工再确认。
上下文长度：虽然官方说 192k token，但实测超过 64k 后后段的准确率会明显下降，建议把每次请求控制在 2‑3 万 token 以内。
并发限速：单账号大概 3‑5 QPS 能稳住，超过后会出现超时或 502，最好在一台机器上跑单个 Agent，避免“谁都抢用同一个钥匙”。
偶尔抽风：us‑west‑2 节点在夜间可能会返回 502，遇到这种情况可以切回 Claude 或者稍等十分钟再试。

整体来说，这套方案的性价比简直可以称得上是“白嫖神器”。尤其对学生、个人开发者或者小团队来说，省下的费用足以投到更重要的业务上。

📚 小技巧 & 安全建议

把 Key 用密码管理器保存，别把它写进代码仓库。泄露后别人可以直接调用你的免费额度。
如果要在 CI/CD 中使用，建议把 Key 放在环境变量里，并在部署脚本里读取。
为防止意外提交 .env 文件，可以在项目根目录添加 .gitignore 并写入 .env，或者使用 pre‑commit 钩子自动拦截。
想要更高的并发，最直接的办法是注册多个 Modal 账号，各自生成 Key，分别跑不同的 Agent。

🛎️ 结语：B 路永远要准备好

Claude Code 官方版固然好，但它的限流和付费墙就像是暗藏的陷阱，一不小心就会卡住整个开发流程。Modal + GLM-5.1 这条 B 路不仅免费、无限 Token，而且部署几分钟就能跑通，真正做到“写代码不用担心钱”。不管是今天的 429，还是明天的其他平台故障，手里多一把钥匙，就多一份从容。

如果你正好在为 AI 编码工具的额度发愁，或者想尝试国产大模型的真实写代码能力，强烈建议按照上面的步骤走一遍。等到后面真正把它嵌进自己的工作流，回头一想，所谓的技术难题，往往只是一段小小的配置而已。

祝大家玩得开心，代码写得顺手，别再被 429 打断灵感的火花啦！😊