G

GME VARCO VISION Embedding

NCSOFTによって開発
GME-VARCO-VISION-Embeddingはマルチモーダル埋め込みモデルで、高次元埋め込み空間においてテキスト、画像、ビデオ間の意味的類似度を計算することに特化しており、特にビデオ検索タスクに長けています。
ダウンロード数 789
リリース時間 : 6/10/2025

モデル概要

このモデルは高次元埋め込み空間においてテキスト、画像、ビデオ間の意味的類似度を計算でき、ビデオ検索タスクに特化しており、高い検索精度と強力な汎化性能を持っています。

モデル特徴

マルチモーダル埋め込み
テキスト、画像、ビデオの3つのモーダリティのデータを処理し、高次元埋め込み空間においてそれらの間の意味的類似度を計算できます。
ビデオ検索特化
ビデオ検索能力が特別に最適化されており、画像検索よりも高い複雑さと文脈理解能力が必要です。
対比学習微調整
ShareGPTVideoの17kビデオ嗜好データセットを使用して対比学習微調整を行い、モデルの検索性能を向上させました。
検索ベクトル強化
基礎モデルとその検索最適化バージョン間の重み差分から得られる検索ベクトルを追加することで、モデルの汎化能力を強化しました。

モデル能力

テキスト - 画像検索
テキスト - ビデオ検索
マルチモーダル特徴抽出
意味的類似度計算

使用事例

ビデオ検索
シーンベースのビデオ検索
シーンの説明に基づいて関連するビデオクリップを検索する
高い検索精度
説明ベースのビデオ検索
テキスト説明に基づいて関連するビデオコンテンツを検索する
強力な汎化性能
質問応答ベースのビデオ検索
質問に基づいて関連するビデオの回答を検索する
正確な文脈理解
画像検索
説明ベースの画像検索
テキスト説明に基づいて関連する画像を検索する
効率的な意味的マッチング
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase