G

GME VARCO VISION Embedding

由 NCSOFT 开发
GME-VARCO-VISION-Embedding是一个多模态嵌入模型,专注于在高维嵌入空间中计算文本、图像和视频之间的语义相似度,尤其擅长视频检索任务。
下载量 789
发布时间 : 6/10/2025

模型简介

该模型能够在高维嵌入空间中计算文本、图像和视频之间的语义相似度,专注于视频检索任务,具有高检索准确率和强大的泛化性能。

模型特点

多模态嵌入
能够处理文本、图像和视频三种模态的数据,并在高维嵌入空间中计算它们之间的语义相似度。
视频检索专注
特别优化了视频检索能力,相比图像检索需要更高的复杂度和上下文理解能力。
对比学习微调
使用ShareGPTVideo的17k视频偏好数据集进行对比学习微调,提高了模型的检索性能。
检索向量增强
通过添加从基础模型与其检索优化版本之间的权重差异获得的检索向量,增强了模型的泛化能力。

模型能力

文本-图像检索
文本-视频检索
多模态特征提取
语义相似度计算

使用案例

视频检索
基于场景的视频搜索
根据场景描述检索相关视频片段
高检索准确率
基于描述的视频搜索
根据文本描述检索相关视频内容
强大的泛化性能
基于问答的视频搜索
根据问题检索相关视频答案
准确的上下文理解
图像检索
基于描述的图像搜索
根据文本描述检索相关图像
高效的语义匹配
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase