OpenVision開源視覺編碼器 - 高性價比用於多模態學習，性能媲美OpenAI CLIP

首頁

Openvision Vit So400m Patch14 224

由UCSC-VLAA開發

OpenVision是一個完全開源、高性價比的先進視覺編碼器家族，專為多模態學習設計，性能匹配甚至超越OpenAI CLIP。

多模態融合

Transformers

開源協議:Apache-2.0 #完全開源視覺編碼器 #多模態學習優化 #邊緣設備友好

下載量 41

發布時間 : 5/6/2025

模型概述

OpenVision是一系列視覺編碼器，旨在為多模態學習提供高效、靈活的解決方案。它支持從輕量級到大規模的模型部署，適用於多種多模態任務。

模型特點

完全開源

OpenVision的訓練數據和訓練方法完全開源，填補了現有方案中數據或方法未公開的空白。

高性價比

OpenVision在性能上匹配甚至超越OpenAI CLIP，同時提供了更優的成本效益。

靈活部署

提供從590萬到6.321億不等的參數量選擇，支持從輕量級到大規模的靈活部署。

多模態集成

在LLaVA等多模態框架中集成時，表現出優異的性能。

模型能力

圖像特徵提取

多模態學習

視覺編碼

使用案例

多模態學習

多模態模型集成

將OpenVision集成到LLaVA等多模態框架中，提升模型性能。

性能匹配甚至超越OpenAI CLIP。

邊緣設備部署

輕量級視覺編碼

使用小參數量模型在邊緣設備上進行高效的視覺編碼。

支持輕量級、邊緣設備友好的多模態部署。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Openvision Vit So400m Patch14 224

模型概述

模型特點

模型能力

使用案例

🚀 OpenVision模型項目

🚀 快速開始

項目摘要

項目頁面

代碼倉庫

📄 許可證