L

Llave 2B

zhibinlanによって開発
LLaVE-2BはAquila-VL-2Bモデルを基にした20億パラメータのマルチモーダル埋め込みモデルで、4Kトークンのコンテキストウィンドウを持ち、テキスト、画像、複数画像、動画の埋め込み表現をサポートします。
ダウンロード数 20.05k
リリース時間 : 2/9/2025

モデル概要

LLaVE-2Bはマルチモーダル埋め込みモデルで、テキスト、画像、複数画像、動画の埋め込み表現が可能であり、文の類似度やゼロショット画像分類などのタスクに適しています。

モデル特徴

マルチモーダル埋め込み
テキスト、画像、複数画像、動画の埋め込み表現をサポートし、複数のモダリティのデータを処理できます。
4Kトークンコンテキストウィンドウ
4Kトークンのコンテキストウィンドウを持ち、長い入力シーケンスを処理できます。
ゼロショット画像分類
追加のトレーニングデータなしで、ゼロショット設定で画像分類タスクを実行できます。
転移学習能力が高い
画像-テキストデータでトレーニングされていますが、テキスト-動画検索タスクに一般化でき、優れたパフォーマンスを示します。

モデル能力

テキスト埋め込み
画像埋め込み
動画埋め込み
マルチモーダル埋め込み
文の類似度計算
ゼロショット画像分類
動画-テキスト検索

使用事例

画像検索
画像-テキスト検索
テキスト記述に基づいて関連画像を検索
MMEBランキングで優れた成績を収めました
動画検索
ゼロショット動画-テキスト検索
テキスト記述に基づいて関連動画を検索
優れたパフォーマンスを示し、他の埋め込みタスクへの転移可能性を示しました
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase