起因
有一張 NVIDIA TITAN RTX(24GB VRAM),希望能在 Hermes Agent(需 64K context window)上使用。聽cyankiwi 有提供 Qwen3.5 系列的 AWQ 4bit 量化版本號稱可以在較小的 VRAM 上運行,於是開始測試。
硬體與環境
| 項目 | 規格 |
| GPU | NVIDIA TITAN RTX(Turing 架構,SM 7.5) |
| VRAM | 24GB |
| CUDA | 12.6 |
| vLLM 版本 | 0.19.1 |
| Python | 3.12 |
| 主要測試機器 | tsi7-14700(192.168.145.98) |
| Hermes Agent | tspi4ssd(192.168.145.x) |
測試過程
1. 安裝 vLLM
pip install --break-system-packages transformers>=5.5.0 pip install --break-system-packages vllm
vLLM 安裝成功,磁碟空間從 94% 降到 77%(釋放約 17%)。
2. 下載模型
hf download cyankiwi/Qwen3.5-27B-AWQ-4bit
模型大小約 20.1GB,下載完成。
3. 嘗試啟動 vLLM
一開始用預設參數(262K context、90% GPU memory)啟動,失敗了。問題是 KV cache 初始化時 VRAM 不夠。
4. 參數調整過程
| 嘗試 | 參數 | 結果 |
| 1 | --gpu-memory-utilization 0.90 --max-model-len 262144 | OOM:只有 1.41GB 可用 |
| 2 | --gpu-memory-utilization 0.75 | OOM |
| 3 | --gpu-memory-utilization 0.70 --max-model-len 131072 --enforce-eager | OOM:KV cache -4.2GB |
| 4 | --gpu-memory-utilization 0.85 --max-model-len 65536 --enforce-eager | OOM:KV cache -0.51GB |
| 5 | --gpu-memory-utilization 0.90 --max-model-len 32768 --enforce-eager | OOM:估算最大長度 7840 |
| 6 | --gpu-memory-utilization 0.90 --max-model-len 7840 --enforce-eager | ✅ 啟動成功 |
終於啟動成功!但 max_model_len 只有 7840 tokens。
5. Hermes 連接設定
修改 tspi4ssd 上的 Hermes config.yaml:
model: default: cyankiwi/Qwen3.5-27B-AWQ-4bit provider: custom base_url: http://192.168.145.98:8000/v1 context_length: 7840
重啟 hermes-gateway,API 測試成功。
6. 最終失敗
Hermes Agent 最低需要 64,000 tokens 的 context window,但 TITAN RTX 只能支援到 7,840 tokens。即使把模型降到 32K 的設定,KV cache 估算需要 2.15GB,但當時可用只有 0.67GB。
核心問題
TITAN RTX 的 24GB VRAM 在承載 Qwen3.5-27B(AWQ 4bit 約 18.65GB)之後,可用於 KV cache 的空間只剩下約 4-5GB。這對於 64K context 所需的 KV cache 來說遠遠不夠。
沒有留言:
張貼留言