2026/4/25

在 TITAN RTX 上使用 vLLM 部署 cyankiwi Qwen3.5-27B AWQ 模型的測試筆記

目標:將 Hermes Agent 連接到本地 vLLM 推理引擎


起因

有一張 NVIDIA TITAN RTX(24GB VRAM),希望能在 Hermes Agent(需 64K context window)上使用。聽cyankiwi 有提供 Qwen3.5 系列的 AWQ 4bit 量化版本號稱可以在較小的 VRAM 上運行,於是開始測試。


硬體與環境

項目規格
GPUNVIDIA TITAN RTX(Turing 架構,SM 7.5)
VRAM24GB
CUDA12.6
vLLM 版本0.19.1
Python3.12
主要測試機器tsi7-14700(192.168.145.98)
Hermes Agenttspi4ssd(192.168.145.x)

測試過程

1. 安裝 vLLM

pip install --break-system-packages transformers>=5.5.0
pip install --break-system-packages vllm

vLLM 安裝成功,磁碟空間從 94% 降到 77%(釋放約 17%)。

2. 下載模型

hf download cyankiwi/Qwen3.5-27B-AWQ-4bit

模型大小約 20.1GB,下載完成。

3. 嘗試啟動 vLLM

一開始用預設參數(262K context、90% GPU memory)啟動,失敗了。問題是 KV cache 初始化時 VRAM 不夠。

4. 參數調整過程

嘗試參數結果
1--gpu-memory-utilization 0.90 --max-model-len 262144OOM:只有 1.41GB 可用
2--gpu-memory-utilization 0.75OOM
3--gpu-memory-utilization 0.70 --max-model-len 131072 --enforce-eagerOOM:KV cache -4.2GB
4--gpu-memory-utilization 0.85 --max-model-len 65536 --enforce-eagerOOM:KV cache -0.51GB
5--gpu-memory-utilization 0.90 --max-model-len 32768 --enforce-eagerOOM:估算最大長度 7840
6--gpu-memory-utilization 0.90 --max-model-len 7840 --enforce-eager✅ 啟動成功

終於啟動成功!但 max_model_len 只有 7840 tokens。

5. Hermes 連接設定

修改 tspi4ssd 上的 Hermes config.yaml:

model:
  default: cyankiwi/Qwen3.5-27B-AWQ-4bit
  provider: custom
  base_url: http://192.168.145.98:8000/v1
  context_length: 7840

重啟 hermes-gateway,API 測試成功。

6. 最終失敗

Hermes Agent 最低需要 64,000 tokens 的 context window,但 TITAN RTX 只能支援到 7,840 tokens。即使把模型降到 32K 的設定,KV cache 估算需要 2.15GB,但當時可用只有 0.67GB。


核心問題

TITAN RTX 的 24GB VRAM 在承載 Qwen3.5-27B(AWQ 4bit 約 18.65GB)之後,可用於 KV cache 的空間只剩下約 4-5GB。這對於 64K context 所需的 KV cache 來說遠遠不夠。

沒有留言:

張貼留言