2026/1/8

Yolo-World, VLM use yolo as image encoder

因為想知道 VLM 的 image encoder 是否都是 ViT,有沒有 YOLO base,結果搜尋出 有使用 YOLO 作為 Image Encoder.

其中 YOLO-World 又有 demo,所以就在 DGX Spark 上 setup 起來試試看。
GB10 的Cuda 有些限制,所以做了些修改才能 run,所以記錄在 GB10_SETUP.md 上。

demo 是用 gradio,上傳照片,promt 寫要偵測的東西,result 就是 object bounding box.

沒有留言:

張貼留言