High Altitude Oolong: 12月 2025

triton.runtime.errors.PTXASError: PTXAS error: Internal Triton PTX codegen error
`ptxas` stderr:
ptxas fatal   : Value 'sm_121a' is not defined for option 'gpu-name'

transformers calling 順序

gpt-oss-120b (uses MXFP4 quantization)
    ↓
transformers (loads model)
    ↓
kernels package (provides MXFP4 Triton kernels)
    ↓
Triton (compiles GPU kernels at runtime)
    ↓
ptxas (NVIDIA's PTX assembler, bundled with Triton)
    ↓
❌ Doesn't recognize sm_121a (Blackwell)

然後 ptxas fatal : Value 'sm_121a' is not defined for option 'gpu-name' 說:

The issue should be fixed by using PTXAS shipped with CUDA 13. Try setting TRITON_PTXAS_PATH to /usr/local/cuda/bin/ptxas etc.

所以看 python 自己的 triton ptxas 版本:

$ ./lib/python3.12/site-packages/triton/backends/nvidia/bin/ptxas --version
ptxas: NVIDIA (R) Ptx optimizing assembler
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Fri_Feb_21_20:22:20_PST_2025
Cuda compilation tools, release 12.8, V12.8.93
Build cuda_12.8.r12.8/compiler.35583870_0

系統的:

$ ptxas --version
ptxas: NVIDIA (R) Ptx optimizing assembler
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Aug_20_01:53:56_PM_PDT_2025
Cuda compilation tools, release 13.0, V13.0.88
Build cuda_13.0.r13.0/compiler.36424714_0

所以依照說明宣告PATH 之後，GB10 就可以用 transformers正常的支援 gpt-oss:120b 的 MXFP4 了。

export TRITON_PTXAS_PATH=/usr/local/cuda/bin/ptxas

有關 gpt-oss:120b 與 MXFP4 可以看 :MXFP4
要等 Pypl 的 triton 用 cuda13 重build 之後，package 才算 official support.

DGX Spark (GB10), transformers load gpt-oss:120b 時遇到的問題

問題 1：缺少 Python 開發標頭檔

編譯錯誤

錯誤訊息

cuda_utils.c:6:10: fatal error: Python.h: No such file or directory

根本原因

Triton 在執行時需要編譯 CUDA 工具模組，但系統缺少 Python 開發標頭檔 (Python.h)。

解決方案

已修復安裝 Python 開發套件：

sudo apt install python3-dev

問題 2：ptxas 不支援 Blackwell 架構 (sm_121a)

GPU 相容性

錯誤訊息

ptxas fatal : Value 'sm_121a' is not defined for option 'gpu-name'

根本原因

Triton 套件內建的 ptxas (PTX 組譯器) 版本太舊，不認識最新的 Blackwell GPU 架構代號 sm_121a。

相關 GitHub Issue: triton-lang/triton#8539

解決方案

已修復使用系統安裝的較新版 ptxas (CUDA 13.0 內建)：

export TRITON_PTXAS_PATH=/usr/local/cuda/bin/ptxas
python llmchat.py

或使用啟動腳本 run_chat.sh 自動設定此環境變數。

問題 3：Tensor on device meta 錯誤

記憶體配置

錯誤訊息

RuntimeError: Tensor on device meta is not on the expected device cuda:0!

根本原因

當使用 device_map="auto" 載入大型模型時，accelerate 套件會使用「meta device」作為權重的佔位符號，延遲載入實際資料。

在 MXFP4 量化與 DGX Spark 的組合下，部分權重 (特別是 MoE router) 可能未能正確從 meta device 轉移到 CUDA device，導致運算失敗。

解決方案

已修復修改模型載入參數，避免使用延遲載入：

self.model = AutoModelForCausalLM.from_pretrained(
    self.model_id,
    torch_dtype=torch.bfloat16,    # 使用明確的資料型別
    device_map="auto",
    low_cpu_mem_usage=False,       # 停用延遲載入
)

2025/12/6

pyenv + venv

因為 venv 只負責隔離環境(pip install 到 local)，沒有管理python 版本的功能，所以用 pyenv 來做。

pyenv 會 create 一個 ~/.pyenv 目錄，所有你需要的 python 版本，然後就可以用 pyenv local 來決定這個位置(folder) 要使用那一個版本。

這樣配合 venv 就可以作到 python 版本管理和 package 隔離。

所以安裝 pyenv 要修改 PATH，讓pyenv/bin/python 優先被執行，才能發揮效果。

pyenv 目前沒有進入 apt repo，所以要自己下載安裝。修改 .bashrc.