High Altitude Oolong: 在 TITAN RTX 上使用 vLLM 部署 cyankiwi Qwen3.5-27B AWQ 模型的測試筆記

目標：將 Hermes Agent 連接到本地 vLLM 推理引擎

有一張 NVIDIA TITAN RTX（24GB VRAM），希望能在 Hermes Agent（需 64K context window）上使用。聽cyankiwi 有提供 Qwen3.5 系列的 AWQ 4bit 量化版本號稱可以在較小的 VRAM 上運行，於是開始測試。

pip install --break-system-packages transformers>=5.5.0
pip install --break-system-packages vllm

vLLM 安裝成功，磁碟空間從 94% 降到 77%（釋放約 17%）。

hf download cyankiwi/Qwen3.5-27B-AWQ-4bit

模型大小約 20.1GB，下載完成。

一開始用預設參數（262K context、90% GPU memory）啟動，失敗了。問題是 KV cache 初始化時 VRAM 不夠。

嘗試	參數	結果
1	--gpu-memory-utilization 0.90 --max-model-len 262144	OOM：只有 1.41GB 可用
2	--gpu-memory-utilization 0.75	OOM
3	--gpu-memory-utilization 0.70 --max-model-len 131072 --enforce-eager	OOM：KV cache -4.2GB
4	--gpu-memory-utilization 0.85 --max-model-len 65536 --enforce-eager	OOM：KV cache -0.51GB
5	--gpu-memory-utilization 0.90 --max-model-len 32768 --enforce-eager	OOM：估算最大長度 7840
6	--gpu-memory-utilization 0.90 --max-model-len 7840 --enforce-eager	✅ 啟動成功

終於啟動成功！但 max_model_len 只有 7840 tokens。

修改 tspi4ssd 上的 Hermes config.yaml：

model:
  default: cyankiwi/Qwen3.5-27B-AWQ-4bit
  provider: custom
  base_url: http://192.168.145.98:8000/v1
  context_length: 7840

重啟 hermes-gateway，API 測試成功。

Hermes Agent 最低需要 64,000 tokens 的 context window，但 TITAN RTX 只能支援到 7,840 tokens。即使把模型降到 32K 的設定，KV cache 估算需要 2.15GB，但當時可用只有 0.67GB。

TITAN RTX 的 24GB VRAM 在承載 Qwen3.5-27B（AWQ 4bit 約 18.65GB）之後，可用於 KV cache 的空間只剩下約 4-5GB。這對於 64K context 所需的 KV cache 來說遠遠不夠。

2026/4/25