先说一句心里话:当 Claude Code 的 429 错误像警报器一样不停响起,真正的尴尬不是代码停下来,而是手里那杯刚泡好的咖啡已经冷了。很多人都有这种体会:想要把 AI 当成写代码的伴侣,结果却被平台的限流卡住。好在最近 Modal 把智谱的 GLM-5.1 挂上了免费 API,直接把“限流的痛”给解了。下面把整个过程拆开聊聊,让你不用再为“额度用光”而抓狂。
⚡️ 为什么 Modal + GLM-5.1 是最香的组合
- 不限 Token,总量不封顶——只限制每秒的请求次数(大概 3–5 QPS),只要不开十几个并发窗口,一天玩儿下来根本不会碰到额度上限。
- 兼容 OpenAI 协议——几乎所有的 AI 编码工具(Claude Code、OpenClaw、OpenCode)都能直接对接,只要把地址改一下。
- 零门槛——注册完直接拿 Key,不需要绑卡或先充钱,真正做到“随点随用”。
对每天要消耗几千万 Token 的重度用户来说,这简直是“主力卡 + 备用卡”套装,省下的花费可以直接投入到硬件或业务上。
🛠️ 5 分钟搞定账号和 Key
- 打开 Modal 官网,点右上角的 "Sign Up",强烈推荐用 GitHub 或 Google 快速登录。邮箱注册需要人工审核,等上几个小时可不划算。
- 登录后直接访问 GLM-5.1 专属页面(地址在官网的 banner 里),左侧点 "Create token",给它起个易辨认的名字,比如 "claude-code",复制弹出来的长串 Key 并马上保存到密码管理器。
- 同时把页面上示例的
baseUrl、model(通常是glm-5-endpoint)记下来,后面配置会用到。
记住:Key 只弹一次,一旦关闭就找不回来了,务必在生成后立即备份。
🔀 把 GLM-5.1 接进 Claude Code:需要一个小网关
Claude Code 用的是 Anthropic 协议(/v1/messages),而 Modal 提供的是 OpenAI 协议(/v1/chat/completions)。二者直接对接会报错,于是需要一个“翻译官”。Modal 官方已经写好一个名叫 modal-jazz 的网关,只要几行命令就能跑起来:
git clone https://github.com/modal-labs/modal-jazz.git
cd modal-jazz/frontends/claude
pip install -r requirements.txt
export MODAL_API_KEY="你的 Key"
python app.py # 默认监听 127.0.0.1:8000
这个网关的工作原理其实很直白:把 Claude Code 发来的 Anthropic 格式的请求转成 OpenAI 格式,转发到 Modal,然后再把 OpenAI 的返回转换回 Anthropic 的流式 SSE。代码只有几百行,几乎不占内存,笔记本上长期跑着也不吃资源。
🔧 配置 Claude Code 指向本地网关
在终端里把环境变量改成指向本地的 127.0.0.1:8000,并把模型名改成上面记下的 glm-5-endpoint 就可以了:
export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_AUTH_TOKEN="随便填一个字符串"
export ANTHROPIC_MODEL="glm-5-endpoint"
重新打开一个终端,跑一次 claude 命令,随便让它写个 Fibonacci。只要 Modal 控制台的请求计数+1,说明整个链路已经通了。
🧩 OpenClaw、OpenCode 的简易接入
这两个工具本身就走 OpenAI 协议,根本不需要网关,直接改配置文件的 url、api_key、model 三项即可:
{
"llm_backend": {
"url": "https://api.us-west-2.modal.direct/v1",
"api_key": "你的 Modal Key",
"model": "glm-5-endpoint"
}
}
保存后再跑一次任务,看到 Modal 控制台计数上升,说明成功。
💡 实际使用感受 & 常见坑
- 速度:首 Token 延迟 500‑800ms,比 Claude Sonnet 稍慢,但每秒能吞下 40‑60 token,写几百行代码基本感受不到卡顿。
- 代码能力:对常规的 CRUD、SQL、单元测试基本没问题;跨文件的大规模重构偶尔会漏掉细节,需要人工再确认。
- 上下文长度:虽然官方说 192k token,但实测超过 64k 后后段的准确率会明显下降,建议把每次请求控制在 2‑3 万 token 以内。
- 并发限速:单账号大概 3‑5 QPS 能稳住,超过后会出现超时或 502,最好在一台机器上跑单个 Agent,避免“谁都抢用同一个钥匙”。
- 偶尔抽风:us‑west‑2 节点在夜间可能会返回 502,遇到这种情况可以切回 Claude 或者稍等十分钟再试。
整体来说,这套方案的性价比简直可以称得上是“白嫖神器”。尤其对学生、个人开发者或者小团队来说,省下的费用足以投到更重要的业务上。
📚 小技巧 & 安全建议
- 把 Key 用密码管理器保存,别把它写进代码仓库。泄露后别人可以直接调用你的免费额度。
- 如果要在 CI/CD 中使用,建议把 Key 放在环境变量里,并在部署脚本里读取。
- 为防止意外提交 .env 文件,可以在项目根目录添加
.gitignore并写入.env,或者使用 pre‑commit 钩子自动拦截。 - 想要更高的并发,最直接的办法是注册多个 Modal 账号,各自生成 Key,分别跑不同的 Agent。
🛎️ 结语:B 路永远要准备好
Claude Code 官方版固然好,但它的限流和付费墙就像是暗藏的陷阱,一不小心就会卡住整个开发流程。Modal + GLM-5.1 这条 B 路不仅免费、无限 Token,而且部署几分钟就能跑通,真正做到“写代码不用担心钱”。不管是今天的 429,还是明天的其他平台故障,手里多一把钥匙,就多一份从容。
如果你正好在为 AI 编码工具的额度发愁,或者想尝试国产大模型的真实写代码能力,强烈建议按照上面的步骤走一遍。等到后面真正把它嵌进自己的工作流,回头一想,所谓的技术难题,往往只是一段小小的配置而已。
祝大家玩得开心,代码写得顺手,别再被 429 打断灵感的火花啦!😊