L

Llave 0.5B

zhibinlanによって開発
LLaVEはLLaVA-OneVision-0.5Bモデルを基にしたマルチモーダル埋め込みモデルで、パラメータ規模は0.5B、テキスト、画像、複数画像、動画の埋め込みが可能です。
ダウンロード数 2,897
リリース時間 : 2/6/2025

モデル概要

LLaVEはテキスト、画像、動画データを処理できるマルチモーダル埋め込みモデルで、文類似度計算、ゼロショット画像分類などのタスクをサポートします。

モデル特徴

マルチモーダル埋め込み
テキスト、画像、動画データを同時に埋め込み処理可能
効率的な性能
少数のパラメータとトレーニングデータでMMEBランキングで優れた成績を達成
ゼロショット転移能力
画像-テキストデータでトレーニングされながら、テキスト-動画検索タスクにゼロショットで汎化可能

モデル能力

テキスト埋め込み
画像埋め込み
動画埋め込み
文類似度計算
ゼロショット画像分類
クロスモーダル検索

使用事例

画像検索
テキストベース画像検索
テキスト記述に基づき関連画像を検索
MMEB評価で優れた性能を発揮
クロスモーダル検索
テキストから動画検索
テキスト記述に基づき関連動画クリップを検索
ゼロショット条件下で強力な性能を発揮
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase