Openvision Vit So400m Patch14 224
OpenVisionは完全オープンソースで高コストパフォーマンスな先進的な視覚エンコーダーファミリーで、マルチモーダル学習向けに設計されており、性能はOpenAI CLIPに匹敵またはそれを上回ります。
ダウンロード数 41
リリース時間 : 5/6/2025
モデル概要
OpenVisionは、マルチモーダル学習に効率的で柔軟なソリューションを提供することを目的とした一連の視覚エンコーダーです。軽量から大規模なモデル展開までサポートし、様々なマルチモーダルタスクに適用可能です。
モデル特徴
完全オープンソース
OpenVisionのトレーニングデータとトレーニング方法は完全にオープンソースで、既存のソリューションでデータや方法が公開されていない空白を埋めます。
高コストパフォーマンス
OpenVisionは性能面でOpenAI CLIPに匹敵またはそれを上回りながら、より優れたコスト効率を提供します。
柔軟な展開
590万から6.321億までのパラメータ数を選択可能で、軽量から大規模な展開まで柔軟に対応します。
マルチモーダル統合
LLaVAなどのマルチモーダルフレームワークに統合した際、優れた性能を発揮します。
モデル能力
画像特徴抽出
マルチモーダル学習
視覚エンコーディング
使用事例
マルチモーダル学習
マルチモーダルモデル統合
OpenVisionをLLaVAなどのマルチモーダルフレームワークに統合し、モデル性能を向上させます。
性能はOpenAI CLIPに匹敵またはそれを上回ります。
エッジデバイス展開
軽量視覚エンコーディング
小規模パラメータモデルを使用してエッジデバイス上で効率的な視覚エンコーディングを行います。
軽量でエッジデバイスに適したマルチモーダル展開をサポートします。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98