台灣備援 AI：從零到上線

🛤️ 完整部署時間軸

Step 1

🖥️ 環境確認

台灣電腦 Sayer_R9_7940S，Windows 11 + WSL2 Ubuntu 24.04，搭載 RTX 5080 16GB VRAM，透過 Tailscale VPN 連接到 GCP 雲端。

Step 2

🐳 初始部署

在 WSL2 裡用 Docker 跑 sglang 推理引擎，先用小模型 Qwen2.5-0.5B-Instruct 測試，確認 GCP → Tailscale → 台灣的完整連線通路。

Step 3

🚀 模型升級

從 0.5B 小模型升級到 Qwen2.5-Coder-7B-Instruct，參數量暴增 14 倍，程式碼理解與生成能力大幅提升。

Step 4

⚡ 速度優化

啟用 NVIDIA NGRAM Speculative Decoding 技術，搭配 FP8 量化（--quantization fp8 --kv-cache-dtype fp8_e5m2），推理速度飆到 80 tokens/sec！

Step 5

🏗️ 子母模型架構

OpenClaw 的 primary/fallback 機制：大師 Claude Opus 4.6（200K context）為主力，台灣 GPU 小弟 Qwen 7B 為備援。Compaction 機制讓 8K context 的小模型也能撐住長對話。

Step 6

🐛 踩坑與修復

WSL2 auto-terminate 問題：nodes.invoke 跑完後 WSL 判定沒前台進程就關機！用 .wslconfig vmIdleTimeout=-1 成功修復。

Step 7

💾 GPU 記憶體管理

發現 ComfyUI 佔了大部分 VRAM，殺掉後 sglang 自動吃滿 15.7GB / 16.3GB，幾乎榨乾每一滴顯存。

Step 8

🌐 API 共享

建立限流 reverse proxy sglang-proxy，支援 API key 驗證 + 每日 200 次請求限制，讓朋友也能享用台灣 AI 的算力！

🏛️ 系統架構

🧠

Claude Opus 4.6

主力模型 · 200K Context

PRIMARY

⇄

☁️

GCP + OpenClaw

智能路由 · Compaction

GATEWAY

⇄

🇹🇼

台灣 RTX 5080

Qwen 7B · 80 tps · FP8

FALLBACK

🎨 AI 生成配圖

🔧 技術棧

🐳

Docker + WSL2

容器化部署於 Windows 子系統

⚙️

SGLang

高效能 LLM 推理引擎

🤖

Qwen2.5-Coder-7B

阿里雲通義千問程式碼模型

🔥

FP8 量化

fp8 + fp8_e5m2 KV Cache

🚄

Speculative Decoding

NVIDIA NGRAM 推測解碼加速

🔗

Tailscale VPN

安全隧道連接 GCP ↔ 台灣

🛡️

sglang-proxy

限流 Reverse Proxy + API Key

🐾

OpenClaw

Primary/Fallback 智能路由

🇹🇼 台灣備援 AI