G

GME VARCO VISION Embedding

由NCSOFT開發
GME-VARCO-VISION-Embedding是一個多模態嵌入模型,專注於在高維嵌入空間中計算文本、圖像和視頻之間的語義相似度,尤其擅長視頻檢索任務。
下載量 789
發布時間 : 6/10/2025

模型概述

該模型能夠在高維嵌入空間中計算文本、圖像和視頻之間的語義相似度,專注於視頻檢索任務,具有高檢索準確率和強大的泛化性能。

模型特點

多模態嵌入
能夠處理文本、圖像和視頻三種模態的數據,並在高維嵌入空間中計算它們之間的語義相似度。
視頻檢索專注
特別優化了視頻檢索能力,相比圖像檢索需要更高的複雜度和上下文理解能力。
對比學習微調
使用ShareGPTVideo的17k視頻偏好數據集進行對比學習微調,提高了模型的檢索性能。
檢索向量增強
通過添加從基礎模型與其檢索優化版本之間的權重差異獲得的檢索向量,增強了模型的泛化能力。

模型能力

文本-圖像檢索
文本-視頻檢索
多模態特徵提取
語義相似度計算

使用案例

視頻檢索
基於場景的視頻搜索
根據場景描述檢索相關視頻片段
高檢索準確率
基於描述的視頻搜索
根據文本描述檢索相關視頻內容
強大的泛化性能
基於問答的視頻搜索
根據問題檢索相關視頻答案
準確的上下文理解
圖像檢索
基於描述的圖像搜索
根據文本描述檢索相關圖像
高效的語義匹配
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase