O

Openvision Vit So400m Patch14 224

UCSC-VLAAによって開発
OpenVisionは完全オープンソースで高コストパフォーマンスな先進的な視覚エンコーダーファミリーで、マルチモーダル学習向けに設計されており、性能はOpenAI CLIPに匹敵またはそれを上回ります。
ダウンロード数 41
リリース時間 : 5/6/2025

モデル概要

OpenVisionは、マルチモーダル学習に効率的で柔軟なソリューションを提供することを目的とした一連の視覚エンコーダーです。軽量から大規模なモデル展開までサポートし、様々なマルチモーダルタスクに適用可能です。

モデル特徴

完全オープンソース
OpenVisionのトレーニングデータとトレーニング方法は完全にオープンソースで、既存のソリューションでデータや方法が公開されていない空白を埋めます。
高コストパフォーマンス
OpenVisionは性能面でOpenAI CLIPに匹敵またはそれを上回りながら、より優れたコスト効率を提供します。
柔軟な展開
590万から6.321億までのパラメータ数を選択可能で、軽量から大規模な展開まで柔軟に対応します。
マルチモーダル統合
LLaVAなどのマルチモーダルフレームワークに統合した際、優れた性能を発揮します。

モデル能力

画像特徴抽出
マルチモーダル学習
視覚エンコーディング

使用事例

マルチモーダル学習
マルチモーダルモデル統合
OpenVisionをLLaVAなどのマルチモーダルフレームワークに統合し、モデル性能を向上させます。
性能はOpenAI CLIPに匹敵またはそれを上回ります。
エッジデバイス展開
軽量視覚エンコーディング
小規模パラメータモデルを使用してエッジデバイス上で効率的な視覚エンコーディングを行います。
軽量でエッジデバイスに適したマルチモーダル展開をサポートします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase