OpenVision開源視覺編碼器 - 高性價比用於多模態學習，性能媲美OpenAI CLIP

Home

Openvision Vit So400m Patch14 224

Developed by UCSC-VLAA

OpenVision是一個完全開源、高性價比的先進視覺編碼器家族，專為多模態學習設計，性能匹配甚至超越OpenAI CLIP。

多模態融合

Transformers

Open Source License:Apache-2.0 #完全開源視覺編碼器 #多模態學習優化 #邊緣設備友好

Downloads 41

Release Time : 5/6/2025

Model Overview

OpenVision是一系列視覺編碼器，旨在為多模態學習提供高效、靈活的解決方案。它支持從輕量級到大規模的模型部署，適用於多種多模態任務。

Model Features

完全開源

OpenVision的訓練數據和訓練方法完全開源，填補了現有方案中數據或方法未公開的空白。

高性價比

OpenVision在性能上匹配甚至超越OpenAI CLIP，同時提供了更優的成本效益。

靈活部署

提供從590萬到6.321億不等的參數量選擇，支持從輕量級到大規模的靈活部署。

多模態集成

在LLaVA等多模態框架中集成時，表現出優異的性能。

Model Capabilities

圖像特徵提取

多模態學習

視覺編碼

Use Cases

多模態學習

多模態模型集成

將OpenVision集成到LLaVA等多模態框架中，提升模型性能。

性能匹配甚至超越OpenAI CLIP。

邊緣設備部署

輕量級視覺編碼

使用小參數量模型在邊緣設備上進行高效的視覺編碼。

支持輕量級、邊緣設備友好的多模態部署。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Openvision Vit So400m Patch14 224

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 OpenVision模型項目

🚀 快速開始

項目摘要

項目頁面

代碼倉庫

📄 許可證