🇹🇼 台灣備援 AI

從零到上線的完整旅程

📅 2026 年 2 月 28 日
80
tokens/sec 推理速度
🧠
7B
模型參數量
🎮
16GB
RTX 5080 VRAM
🔑
200
API 共享額度/天

🛤️ 完整部署時間軸

Step 1

🖥️ 環境確認

台灣電腦 Sayer_R9_7940S,Windows 11 + WSL2 Ubuntu 24.04,搭載 RTX 5080 16GB VRAM,透過 Tailscale VPN 連接到 GCP 雲端。

Step 2

🐳 初始部署

在 WSL2 裡用 Docker 跑 sglang 推理引擎,先用小模型 Qwen2.5-0.5B-Instruct 測試,確認 GCP → Tailscale → 台灣的完整連線通路。

Step 3

🚀 模型升級

從 0.5B 小模型升級到 Qwen2.5-Coder-7B-Instruct,參數量暴增 14 倍,程式碼理解與生成能力大幅提升。

Step 4

⚡ 速度優化

啟用 NVIDIA NGRAM Speculative Decoding 技術,搭配 FP8 量化(--quantization fp8 --kv-cache-dtype fp8_e5m2),推理速度飆到 80 tokens/sec

Step 5

🏗️ 子母模型架構

OpenClaw 的 primary/fallback 機制:大師 Claude Opus 4.6(200K context)為主力,台灣 GPU 小弟 Qwen 7B 為備援。Compaction 機制讓 8K context 的小模型也能撐住長對話。

Step 6

🐛 踩坑與修復

WSL2 auto-terminate 問題:nodes.invoke 跑完後 WSL 判定沒前台進程就關機!用 .wslconfig vmIdleTimeout=-1 成功修復。

Step 7

💾 GPU 記憶體管理

發現 ComfyUI 佔了大部分 VRAM,殺掉後 sglang 自動吃滿 15.7GB / 16.3GB,幾乎榨乾每一滴顯存。

Step 8

🌐 API 共享

建立限流 reverse proxy sglang-proxy,支援 API key 驗證 + 每日 200 次請求限制,讓朋友也能享用台灣 AI 的算力!

🏛️ 系統架構

🧠

Claude Opus 4.6

主力模型 · 200K Context

PRIMARY

☁️

GCP + OpenClaw

智能路由 · Compaction

GATEWAY

🇹🇼

台灣 RTX 5080

Qwen 7B · 80 tps · FP8

FALLBACK

🎨 AI 生成配圖

🔧 技術棧

🐳
Docker + WSL2
容器化部署於 Windows 子系統
⚙️
SGLang
高效能 LLM 推理引擎
🤖
Qwen2.5-Coder-7B
阿里雲通義千問程式碼模型
🔥
FP8 量化
fp8 + fp8_e5m2 KV Cache
🚄
Speculative Decoding
NVIDIA NGRAM 推測解碼加速
🔗
Tailscale VPN
安全隧道連接 GCP ↔ 台灣
🛡️
sglang-proxy
限流 Reverse Proxy + API Key
🐾
OpenClaw
Primary/Fallback 智能路由