從零到上線的完整旅程
📅 2026 年 2 月 28 日台灣電腦 Sayer_R9_7940S,Windows 11 + WSL2 Ubuntu 24.04,搭載 RTX 5080 16GB VRAM,透過 Tailscale VPN 連接到 GCP 雲端。
在 WSL2 裡用 Docker 跑 sglang 推理引擎,先用小模型 Qwen2.5-0.5B-Instruct 測試,確認 GCP → Tailscale → 台灣的完整連線通路。
從 0.5B 小模型升級到 Qwen2.5-Coder-7B-Instruct,參數量暴增 14 倍,程式碼理解與生成能力大幅提升。
啟用 NVIDIA NGRAM Speculative Decoding 技術,搭配 FP8 量化(--quantization fp8 --kv-cache-dtype fp8_e5m2),推理速度飆到 80 tokens/sec!
OpenClaw 的 primary/fallback 機制:大師 Claude Opus 4.6(200K context)為主力,台灣 GPU 小弟 Qwen 7B 為備援。Compaction 機制讓 8K context 的小模型也能撐住長對話。
WSL2 auto-terminate 問題:nodes.invoke 跑完後 WSL 判定沒前台進程就關機!用 .wslconfig vmIdleTimeout=-1 成功修復。
發現 ComfyUI 佔了大部分 VRAM,殺掉後 sglang 自動吃滿 15.7GB / 16.3GB,幾乎榨乾每一滴顯存。
建立限流 reverse proxy sglang-proxy,支援 API key 驗證 + 每日 200 次請求限制,讓朋友也能享用台灣 AI 的算力!
主力模型 · 200K Context
PRIMARY
智能路由 · Compaction
GATEWAY
Qwen 7B · 80 tps · FP8
FALLBACK