High Altitude Oolong
2026/1/8
Yolo-World, VLM use yolo as image encoder
因為想知道 VLM 的 image encoder 是否都是 ViT,有沒有 YOLO base,結果搜尋出
ZSD-YOLO
:2021
YOLO-World
:2024
有使用 YOLO 作為 Image Encoder.
其中 YOLO-World 又有 demo,所以就在 DGX Spark 上 setup 起來試試看。
GB10 的Cuda 有些限制,所以做了些修改才能 run,所以記錄在
GB10_SETUP.md
上。
demo 是用 gradio,上傳照片,promt 寫要偵測的東西,result 就是 object bounding box.
沒有留言:
張貼留言
較舊的文章
首頁
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言