OpenVisionオープンソースビジョンエンコーダ - 多モーダル学習に適したコストパフォーマンスが高く、OpenAI CLIPに匹敵する性能を持つ

ホーム

Openvision Vit So400m Patch14 224

UCSC-VLAAによって開発

OpenVisionは完全オープンソースで高コストパフォーマンスな先進的な視覚エンコーダーファミリーで、マルチモーダル学習向けに設計されており、性能はOpenAI CLIPに匹敵またはそれを上回ります。

マルチモーダル融合

Transformers

オープンソースライセンス:Apache-2.0 #完全オープンソースの視覚エンコーダー #マルチモーダル学習の最適化 #エッジデバイス対応

ダウンロード数 41

リリース時間 : 5/6/2025

モデル概要

OpenVisionは、マルチモーダル学習に効率的で柔軟なソリューションを提供することを目的とした一連の視覚エンコーダーです。軽量から大規模なモデル展開までサポートし、様々なマルチモーダルタスクに適用可能です。

モデル特徴

完全オープンソース

OpenVisionのトレーニングデータとトレーニング方法は完全にオープンソースで、既存のソリューションでデータや方法が公開されていない空白を埋めます。

高コストパフォーマンス

OpenVisionは性能面でOpenAI CLIPに匹敵またはそれを上回りながら、より優れたコスト効率を提供します。

柔軟な展開

590万から6.321億までのパラメータ数を選択可能で、軽量から大規模な展開まで柔軟に対応します。

マルチモーダル統合

LLaVAなどのマルチモーダルフレームワークに統合した際、優れた性能を発揮します。

モデル能力

画像特徴抽出

マルチモーダル学習

視覚エンコーディング

使用事例

マルチモーダル学習

マルチモーダルモデル統合

OpenVisionをLLaVAなどのマルチモーダルフレームワークに統合し、モデル性能を向上させます。

性能はOpenAI CLIPに匹敵またはそれを上回ります。

エッジデバイス展開

軽量視覚エンコーディング

小規模パラメータモデルを使用してエッジデバイス上で効率的な視覚エンコーディングを行います。

軽量でエッジデバイスに適したマルチモーダル展開をサポートします。

🚀 OpenVision

このリポジトリには、多モーダル学習向けの完全にオープンで費用対効果の高い高度なビジョンエンコーダーのファミリーであるOpenVisionモデルが含まれています。

🚀 クイックスタート

このリポジトリには、論文 OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning で説明されている、多モーダル学習向けの完全にオープンで費用対効果の高い高度なビジョンエンコーダーのファミリーであるOpenVisionモデルが含まれています。

概要:

2021年初頭にリリースされたOpenAIのCLIPは、長い間、多モーダル基盤モデルを構築する際のビジョンエンコーダーの第一選択肢でした。最近、SigLIPなどの代替案がこの現状に挑戦し始めていますが、私たちの知る限り、完全にオープンなものはありません。それらのトレーニングデータは独自のものであり、かつ/またはトレーニングレシピが公開されていません。この論文では、OpenVisionという完全にオープンで費用対効果の高いビジョンエンコーダーのファミリーを提案することでこの空白を埋めています。OpenVisionは、LLaVAのような多モーダルフレームワークに統合された場合、OpenAIのCLIPの性能と同等またはそれを上回ります。OpenVisionは既存の研究（例えば、トレーニングフレームワークとしてのCLIPSやトレーニングデータとしてのRecap - DataComp - 1B）に基づいており、エンコーダーの品質を向上させるための複数の重要な知見を明らかにし、多モーダルモデルの進歩における実用的な利点を示しています。590万から6億3210万のパラメータを持つビジョンエンコーダーを公開することで、OpenVisionは実践者に多モーダルモデルを構築する際の容量と効率の柔軟なトレードオフを提供します。大きなモデルはより高い多モーダル性能を提供し、小さなバージョンは軽量でエッジ対応の多モーダルデプロイメントを可能にします。

プロジェクトページ: https://ucsc-vlaa.github.io/OpenVision

コード: https://github.com/UCSC-VLAA/OpenVision