L

Llave 7B

zhibinlanによって開発
LLaVE-7BはLLaVA-OneVision-7Bモデルを基にした70億パラメータのマルチモーダル埋め込みモデルで、テキスト、画像、複数画像、動画の埋め込み表現能力を備えています。
ダウンロード数 1,389
リリース時間 : 2/9/2025

モデル概要

LLaVE-7Bはマルチモーダル埋め込みモデルで、テキスト、画像、複数画像、動画の埋め込み表現を処理でき、MMEBランキングで優れた性能を示し、強力な転移学習能力を発揮します。

モデル特徴

マルチモーダル埋め込み能力
テキスト、画像、複数画像、動画を同時に埋め込み表現できる
卓越した性能
66.2万のトレーニングサンプルのみでMMEBにおいて最先端の性能を実現
強力な転移能力
画像テキストデータでトレーニングされているが、テキスト-動画検索タスクにゼロショットで汎化できる
効率的なトレーニング
少量のデータのみで優れたパフォーマンスを達成

モデル能力

テキスト埋め込み表現
画像埋め込み表現
複数画像埋め込み表現
動画埋め込み表現
クロスモーダル検索
ゼロショット転移学習

使用事例

情報検索
クロスモーダル検索
テキストクエリに基づいて関連する画像や動画を検索
MMEBランキングで1位を獲得
コンテンツ理解
画像コンテンツ理解
画像内容を理解し関連するテキスト表現を生成
画像内の異なるオブジェクトを正確に区別できる
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase